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本 书 系统 介绍 了 关于 FPGA 的 设计 与 实现 的 研究 成 果 。 首 先 ， 引 入 数 
字 系 统 的 设计 概念 ， 使 用 FPGA 设计 实现 ， 并 给 出 基于 FPGA 的 高 性 能 加 
速 的 仿真 结果 ; 其 次 ， 展 现 更 多 有 限 状态 机 (FSM) HH, MRR 
FPGA 基本 资源 的 方法 ， 并 讲述 如 何在 FPGA 中 实现 最 小 化 电路 的 延 时 。 
本 书 着 重 介绍 了 完全 综合 的 硬件 描述 规范 ， 提 供 大 量 基于 提出 的 模型 和 方 
法 的 实际 设计 ,探索 了 涉及 核 配 置 馆 辑 器 件 和 大 量 嵌 入 模块 的 建 模 方法 。 

本 书 可 作为 普通 高 等 学 校 微 电 子 、 电 气 工 程 、 自 动 化 、 能 源 工程 等 专 
业 本 科 生 和 研究 生 相关 课程 的 教材 或 参考 书 ， 也 可 为 相关 专业 的 工程 技术 
人 员 对 FPGA 系统 的 研究 设计 提供 参考 。 








近年 来 ， 现 场 可 编程 门 阵列 (Field — Programmable Gate Array, FPGA) 4% & 
速 发 展 ， 在 可 再 生 能 源 、 交 通 、 国 防 、 通 信 、 制 造 、 家 电 等 领域 得 到 越 来 越 广泛 的 
应 用 。 本 书 着 重 阐述 在 数字 系统 中 如 何 高 效 运用 FPGA 的 编程 设计 与 实现 。 这 是 由 
于 作者 在 多 年 的 研究 工作 中 逐渐 意识 到 FPGA 技术 的 发 展 根源 在 于 半导体 技术 的 发 
展 ， 新 一 代 电 子 系统 的 研发 总 是 伴随 着 新 一 代 FPGA 的 诞生 。 不 仅 要 关心 宏观 性 
能 ， 还 要 对 微观 的 半导体 物理 机 制 给 予 足 够 的 重视 。FPGA 的 高 效 运 用 主要 在 有 限 
状态 机 (Finite State Machine，FSM) 、 存 储 器 和 数字 信号 处 理 等 方面 的 设计 方法 ， 
这 也 是 困扰 我 国 FPGA 运用 领域 工作 者 的 一 个 越 来 越 突出 的 问题 。 

为 此 ， 作 者 在 书 中 对 FPGA 运用 的 设计 和 实现 两 个 方面 进行 了 分 析 ， 着 重 介绍 
了 相关 的 最 新 科研 成 果 ， 包 括 展现 更 多 有 限 状 态 机 (FSM) HHA, Bik 
FPGA 基本 资源 的 方法 ， 并 讲述 如 何在 FPGA 中 实现 最 小 化 电路 的 延 时 。 本 书 着 重 
介绍 了 完全 综合 的 硬件 描述 规范 ， 提 供 大 量 基于 提出 的 模型 和 方法 的 实际 设计 ， 探 
索 了 涉及 核 配置 次 辑 器 件 和 大 量 典 入 模块 的 建 模 方 法 。 本 书 对 FPGA 系统 运用 中 有 
” 限 状 态 机 的 研究 有 助 于 我 国 科技 工作 者 更 深入 地 了 解 国际 上 的 研究 现状 和 最 新 发 
展 ， 对 我 国 相关 领域 的 理论 分 析 和 技术 创新 起 到 积极 的 推动 作用 。 

全 书 的 翻译 工作 由 刻 永 波 副 教授 完成 。 在 翻译 过 程 中 得 到 了 翔 家 欣 博士 、 李 红 
梅 硕士 等 人 的 建议 和 帮助 ， 在 此 表示 衷心 感谢 。 机 械 工业 出 版 社 的 江 婧 婧 编辑 为 本 
书 的 翻译 出 版 做 了 大 量 工作 ， 在 此 一 并 表示 感谢 。 

由 于 译 者 的 水 平 有 限 ， 翻 译 中 难免 有 错漏 和 不 妥 之 处 ， 尽 请 读者 指正 。 























译 者 





现场 可 编程 门 阵列 (FPGA) 是 Xilinx 公司 在 1985 年 发 明 的 。FPGA 对 工程 各 
个 方向 的 影响 持续 迅速 增长 。 这 样 的 进步 有 多 方面 原因 ， 其 中 最 重要 的 是 FPGA 的 
固有 配置 性 及 其 廉价 的 升级 成 本 。 预 测 表明 FPGA 的 影响 会 持续 增长 且 应 用 范围 会 
增加 。 近 代 的 现场 配置 芯片 合并 了 多 核 处 理 器 和 重复 配置 逻辑 附件 的 一 些 常用 器 
件 ， 如 数字 信号 处 理 器 件 和 块 存储 器 。 基 于 FPGA 的 系统 是 可 综合 的 ， 可 在 普通 计 
算 机 使 用 集成 设计 环境 中 执行 。 这 样 的 系统 实验 和 探索 普遍 基于 连接 到 相同 环境 的 
原型 机 板 。 | 
众所周知 ， 且 已 证 实 FPGA 可 高 效应 用 于 工程 应 用 中 。 一 个 原因 是 系统 复杂 性 
的 增长 很 难 使 轮船 设计 不 出 错 。 因 此 ， 有 必要 在 制造 之 后 修正 错误 ， 而 这 个 可 在 自 
定义 器 件 中 轻松 完成 。 
当代 芯片 的 复杂 性 随 着 时 间 呈 指数 增长 ， 可 用 的 晶体 管 数量 比 有 意义 的 设计 能 一 
力 增长 更 快 。 这 个 情况 是 众所周知 的 设计 生产 力 差 距 ， 且 这 个 差距 还 在 持续 增长 。 
因此 ， 设 计生 产 力 是 将 来 系统 的 真实 挑战 。 尽 管 在 单位 产量 和 收入 方面 ， 专 用 集成 
电路 (Application Specific Integrated Circuits, ASIC) 和 专用 标准 产品 (Application 
Specific Standard Products, ASSP) 超过 了 FPGA， 但 是 预测 FPGA 设计 开始 数量 是 
领先 于 ASIC/ASSP 的 设计 开始 。 因 此 ，FPGA 高 度 参与 设计 电路 和 系统 ， 并 且 需 要 
更 佳 的 设计 产品 ， 无 疑 需 要 巨大 工程 资源 ， 这 是 技术 普遍 性 的 主要 输出 ， 本 书 旨 在 
辅助 相关 课程 。 
FPGA 的 操作 时 钟 频率 比 普 通电 脑 和 ASIC 更 低 。 最 先进 器 件 的 成 本 很 高 ， 稍 
微 便宜 的 芯片 操作 的 时 钟 频率 比 不 便宜 的 广泛 使 用 的 电脑 更 低 。FPGA 的 最 重要 的 
应 用 是 改善 被 执行 系统 的 性 能 。 为 了 实现 通常 较 慢 的 器 件 加 速 ， 并 行 性 需要 高 阶 
. RBS ~ 
本 书 有 两 个 目的 ， 且 由 两 部 分 组 成 。 第 一 部 分 包含 第 1 ~5 章 及 附录 人 A 和 B 
(由 Valery Sklyarov 和 louliia Skliarova 编写 )， 引 入 数字 系统 的 设计 概念 ， 使 用 现代 
FPGA 并 将 作者 所 得 结果 呈现 到 基于 FPGA 的 高 性 能 加 速 。 这 一 部 分 由 5 章节 组 成 ， 
这 些 章 节 具 有 扩展 主题 ， 通 常 包含 数字 系统 ， 在 这 种 方式 下 讨论 基于 FPGA 的 设 
计 ， 由 实例 例证 ， 由 相关 便宜 的 原型 机 板 的 实验 支持 。 本 书 的 第 二 部 分 包含 第 6 ~ 
9 章 (由 Alexander Barkalov 和 Larisa Titarenko 编写 ) ， 覆 盖 更 多 的 有 限 状态 机 
(FSM) 的 理论 知识 ， 以 及 减少 FPGA 基本 资源 的 主要 目的 (器件 或 查找 表 ) ， 最 
小 化 电路 的 延 时 ， 在 FPGA 中 达到 更 佳 的 基础 器 件 优 化 。. | 
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5 FPGA 领域 其 他 同类 书 相 比 ， 本 书 具 有 以 下 特点 : 

(1) 每 章 都 提供 简明 易 懂 的 摘要 (甚至 对 该 领域 的 初学 者 都 是 合适 的 ) ， 扩 展 
到 更 先进 的 主题 ， 覆 盖 提 出 的 、 作 者 传播 的 和 实际 应 用 中 的 众多 实例 例证 的 新 
技术 。 

(2) 完全 综合 的 硬件 描述 规范 (尤其 是 VHDL)， 对 于 众多 描述 的 电路 和 系 
统 ， 已 经 可 以 被 测试 和 组 成 实际 工程 设计 ， 对 于 未 毕业 和 已 毕业 的 学 生 而 言 都 是 必 
不 可 少 的 。 

(3) 大 量 实际 设计 基于 提出 的 模型 和 方法 ， 对 于 完全 应 用 ,讨论 的 领域 如 数 
据 处 理 、 组 合 搜索 和 计算 ， 依 赖 层 次 有 限 状态 机 模型 。 

(4) 探索 模型 和 方法 ， 涉 及 核 配置 逻辑 器 件 和 大 量 肉 入 模块 〈 如 存储 器 和 数 
字 信 号 处 理 器 件 ) 和 基于 模板 的 电路 。 

本 书 提供 以 下 额外 特性 ; 

(1) 设计 实例 都 在 Xilinx 和 Altera FPGA 三 类 原型 机 板 上 测试 过 。 最 新 的 Nex- 
ys -4 板 属于 Digilent， 最 新 的 Artix -7 FPGA 属于 Xilinx 7 系列 ， 以 及 众所周知 的 
Digilent Atlys 板 ， 属 于 Spartan -6 FPGA， 用 于 大 量 实例 中 。 许 多 工程 也 在 DE2 - 
115 板 中 测试 过 ,使 用 Altera Cyclon -IVe FPGA， 这 个 芯片 专 为 教育 设计 并 广泛 应 
用 于 大 学 课程 。 

(2) 本 书 中 所 有 VHDL 例子 都 是 可 在 线 下 载 的 ， 网 址 是 http: //sweet. ua. pt/ 








— skl/Springer2014. html。 该 网 址 也 提供 最 新 升级 的 工程 。 这 些 工程 可 以 下 载 测 试 并 


立即 评估 。 每 个 实例 包括 简明 的 说 明 、VHDL 代码 、 用 户 约束 文件 和 所 选择 FPGA 
的 比特 流 。 

本 书 各 章 内 容 如 下 : 

第 1 章 引 入 FPCA 结构 ， 通 过 表现 现代 器 件 的 普通 结构 并 解释 核 器 件 ， 以 及 最 
重要 的 敬 入 模块 ， 比 如 存储 器 和 数字 信号 处 理 咒 件 。 讨 论 一 些 典 型 的 基于 FPGA 的 
设计 方案 ,覆盖 了 规范 阶段 ， 提 供 物 理 约束 、 执 行 、 配 置 和 最 后 的 测试 。 在 这 章 的 
摘要 部 分 ， 设 计 规范 表现 在 原理 图 级 ， 其 中 电路 从 供应 商 特 供 库 中 的 可 用 器 件 、 用 
户 定 义 模块 或 合理 定制 的 知识 产权 核 。 给 出 的 一 些 简化 实例 可 在 基于 FPGA 的 原型 
机 板 上 测试 。 本 书 用 的 三 类 原型 机 板 简要 特色 化 ， 并 介绍 了 在 FPGA 中 执行 电路 和 
系统 之 间 的 交流 。 所 有 处 理 步 又 都 通过 大 量 实例 进行 介绍 。 

第 2 章 简要 介绍 综合 VHDL， 足 够 用 于 在 没有 太 多 背景 知识 的 情况 下 理解 给 出 
的 设计 方法 和 例子 。 这 一 章 的 主要 目的 是 解释 基本 VHDL 模块 及 其 规范 能 力 。 有 
许多 很 好 地 介绍 VHDL 的 书 可 用 于 补充 本 书 。 我 们 的 初级 目的 是 综合 和 优化 基于 
FPGA 的 电路 和 系统 ，VHDL 是 本 书 用 于 描述 理想 功能 和 结构 的 工具 。 因 此 ， 本 章 
旨 在 便于 读者 阅读 后 续 内 容 。 

第 3 章 首先 简要 介绍 广泛 使 用 的 简单 组 合 和 时 序 电路 。 许 多 实例 与 在 FPGA 中 
执行 的 电路 同时 给 出 。 接 下 来 介绍 众多 优化 技术 ,特别 强调 板 并 行 性 ， 对 于 基于 
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FPGA 的 应 用 很 重要 。 引 入 更 复杂 的 数字 电路 和 系统 ， 比 如 并 行 网 络 用 于 排序 和 搜 
索 、 汉 明 权 重 计数 器 /比较 器 、 并 发 向 量 处 理 单元 和 先进 的 有 限 状 态 机 。 设 计 这 样 
的 电路 使 得 众多 操作 数据 可 以 并 行 执行 。 基 于 网 络 的 方案 ， 比 如 排序 和 计数 网 络 ， 
足够 映射 电路 到 FPGA RE (查找 表 )。 讨 论 并 评估 大 量 可 用 竞争 方法 。 所 有 电路 
和 系统 都 用 VHDL 描述 ， 在 FPGA 中 执行 和 测试 ， 最 后 应 用 各 种 标准 评估 。 提 出 的 
许多 新 方法 都 是 可 综合 的 ， 使 得 很 复杂 的 工程 在 FPGA 中 完成 ， 用 于 解决 不 同 领域 
的 先进 问题 ， 比 如 数据 处 理 核 组 合 搜索 。 

第 4 章 首 先例 证 商业 可 用 知识 产权 核 可 以 赂 入 不 同 设 计 中 。 尤 其 描述 了 数字 信 
号 处 理 片 构建 的 算术 电路 和 参数 化 存储 块 提供 支持 数据 缓冲 (如 FIFO， 即 先进 先 
出 )。 给 出 数字 信号 处 理 器 的 更 多 细节 ， 且 表明 这 些 如 何 高 效用 于 实际 电路 ， 如 汉 
明 权 重 计数 器 /比较 器 。 本 章 的 主要 致力 于 主机 和 基于 FPGA 的 原型 机 板 通 过 Digi- 
lent 增强 并 行 接口 和 通用 异步 接收 和 传输 (Universal Asynchronous Receiver and 
Transmitter, UART) 接口 的 交互 。 描 述 了 交流 模块 的 完整 细节 ， 包 括 由 C 语言 发 
展 的 通用 计算 机 的 软件 和 FPGA 的 硬件 。 下 一 部 分 将 设计 的 模块 用 于 包含 不 同 目的 
的 交流 工程 。 更 复杂 的 设计 用 于 第 3 章 基 于 网 络 的 迭代 数据 排序 ， 以 这 种 方式 执行 
和 测试; 并 作为 完整 的 功能 实例 。 本 章 总 结 简 要 的 描述 可 编程 片上 系统 (PSoC)， 
组 合 了 典 入 处 理 系统 和 重复 配置 逻辑 ， 通 向 更 高 效 的 应 用 执行 。 给 出 并 讨论 提出 的 
映射 第 3 章 的 设计 到 PSoC 的 方法 。 

第 5 章 概 述 基 于 层次 和 并 行规 范 的 设计 技术 。 首 先 引入 层次 计算 图 (HGS), 
使 复杂 的 数字 控制 算法 被 解体 为 更 高 效 的 描述 。HGS 描述 的 模块 是 基本 实体 ， 提 
供 技术 基础 ， 是 自动 、 完 整 和 潜在 可 重复 使 用 的 器 件 。 必 须 设计 模块 如 下 : 中 可 以 
独立 于 其 他 模块 测试 ; @ 具 有 和 良好 定义 的 外 部 接口 可 重复 用 于 不 同 规范 。 这 表明 
HGS (模块 ) 可 以 在 具有 栈 存储 器 的 层次 有 限 状 态 机 (HFSM) 执行 。 给 出 许多 
VHDL 实例 用 于 例证 HFSM 可 以 执行 层次 算法 和 支持 递归 算法 。 描 述 多 类 HFSM 和 
可 综合 VHDL 模板 ， 也 讨论 并 行规 范 和 并 行 HFSM。 许 多 全 功能 的 VHDL 实例 对 以 
上 所 有 类 型 的 HFSM 进行 了 介绍 和 评价 。 这 也 表明 软件 程序 可 以 通过 使 用 HFSM 模 
块 映射 到 硬件 。 最 后 提出 HFSM 的 变 体 优 化 技术 。 

第 6 章 致力 于 在 FPGA 执行 的 Moore FSM 的 逻辑 电路 优化 。 给 出 功能 和 结构 解 
体 方法 的 普通 特性 。FPGA 的 特色 是 可 分 析 的 ， 减 少 查找 表 (LUT) 器 件 在 Moore 
FSM 的 逻辑 电路 的 数量 。 对 于 Moore FSM， 分 类 的 优化 方法 包括 : 状态 代码 转换 
为 伪 等 状态 代码 (PES); QUA A NUR AS PES 代码 的 并 置 和 微 操 作 集 ; OF 
RR (FSM 的 输入 变量 ) 和 其 他 变量 。 所 有 讨论 的 方法 由 实例 例证 。 

第 7 章 处 理 Moore FSM 基于 使 用 嵌入 存储 块 (EMB ) 。 讨 论 基 于 简单 EMB 的 执 
ITE H E I Moore 和 Mealy FSM 的 方法 。 在 这 种 情况 下 ， 一 片 EMB 足以 执行 电路 。 
接 下 来 讨论 优化 方法 ， 基 于 逻辑 条 件 替 换 和 微 操 作 集 编码 。 考 虑 的 方法 基于 编码 
FSM 结构 表 的 行 。 所 有 这 些 方法 通 向 两 级 Mealy FSM 模块 和 三 级 Moore FSM 模块 。 
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接 下 来 ， 组 合 这 三 种 方法 用 于 FSM 逻辑 电路 硬件 优化 。 最 后 一 部 分 考虑 将 基于 
PES 的 方法 应 用 在 基于 EMB 的 Moore FSM 中 。 所 有 讨论 的 方法 均 通 过 实例 例证 。 

第 8 章 致力 于 基于 EMB 的 FSM 的 逻辑 电路 优化 。 首 先 讨论 基于 逻辑 条 件 替 换 
表 的 设计 方法 ， 用 于 Moore 和 Mealy FSM。 接 下 来 提出 优化 方法 ， 这 些 方 法 基于 分 
离 逻 辑 条 件 集 。 这 个 方法 减少 了 逮 辑 条 件 蔡 换 块 中 的 电路 的 LUT 数量 。 在 Moore 
FSM 的 情况 下 ， 优 化 方法 基于 优化 状态 赋值 和 状态 代码 转换 到 PES 类 代码 。 所 有 
讨论 的 方法 均 通 过 实例 例证 。 

第 9 章 致力 于 使 用 数据 通路 减少 基于 FPGA 的 Moore FSM 逻辑 电路 中 的 LUT & 
量 。 首 先 提出 内 状态 转换 的 可 操作 执行 准则 。 基于 可 操作 器 件 的 使 用 《加 法 器 、 
计数 器 、 移 位 器 等 ) 对 于 计算 代码 的 状态 转换 。 接 下 来 ， 为 Moore FSM 和 内 状态 
转换 的 可 操作 执行 提出 综合 进程 的 基本 结构 。 综 合 进 程 的 结构 依赖 初始 状态 ， 比 如 
FSM 状态 代码 操作 集 。 讨 论 操 作 执 行 转换 的 典型 结构 。 接 下 来 ， 对 于 计算 状态 转 
换代 码 ， 这 个 方法 混合 了 传统 和 提出 的 方法 。 本 章 的 最 后 一 部 分 讨论 所 提出 方法 的 
有 效 性 。 

附录 A 包含 简短 描述 本 书 的 综合 VHDL 结构 和 保留 字 。 

附录 B 提供 大 量 代码 实例 ， 支 持 本 书 第 一 部 分 的 工程 。 所 有 例子 都 在 附录 B 
中 呈现 ， 以 便 直接 尝试 和 测试 。 

本 书 可 作为 大 学 课程 辅助 材料 ， 包 括 基于 FPGA 的 设计 ， 比 如 “数字 设计 ” 
“计算 机 结构 "“ 电 子 ”“ 嵌 入 式 系 统 ” “重复 配 置 计算 ”“ 通 信 ” 和 “基于 FPGA 
的 系统 ”。 本 书 也 可 以 用 于 工程 实践 以 及 计划 设计 和 调查 的 基于 FPGA 电路 和 系统 
领域 中 的 研究 活动 。 必 须 注 意 到 完全 功能 的 VHDL 工程 (这 也 可 在 线 找 到 ， 网 址 
http: //sweet. ua. pt/skl/Springer2014. html) ， 在 许多 研究 和 工程 应 用 中 可 直接 
使 用 。 
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第 1 ae 
FPGA 结构 、 可 重 构 结 构 、 
上 散 入 模块 和 设计 工具 


摘要 一 一 本 章 通 过 列举 现代 器 件 的 基本 结构 、 解 释 核 心 模块 和 最 重要 的 岁入 模 
He (例如 存储 器 和 数字 信号 处 理 器 件 ) 来 介绍 FPGA 结构 。 还 将 讨论 一 些 典 型 的 
基于 FPGA 的 设计 场景 ， 包 括 规 范 、 提 供 物 理 约 束 、 实 现 配 置 、 结 构 布 局 和 测试 等 
阶段 。 本 章 主 要 介绍 基于 电路 原理 图 级 的 规范 方法 ， 即 从 明确 的 供应 商 库 、 用 户 定 
义 模 块 或 合适 的 定制 IP 核 中 选择 合适 的 器 件 来 构建 电路 。 本 章 将 给 出 一 些 简单 的 
例子 ， 这 些 例 子 已 经 在 基于 FPGA 的 原型 演示 版 中 测试 过 。 本 章 将 简要 介绍 书 中 的 
3 个 原型 演示 版 ， 也 将 介绍 在 FPGA 中 实现 电路 和 系统 的 一 般 方 法 ， 并 通过 大 量 实 
例 介绍 所 有 的 操作 步骤 。 


1.1 介绍 FPGA 


现场 可 编程 门 阵列 (Field — Programmable Gate Arrays, FPGA) 的 出 现 已 经 30 
多 年 ， 它 们 对 工程 中 不 同方 向 的 影响 持续 增长 且 极 度 迅速 。FPGCA 发 展 如 此 迅速 的 
原因 有 很 多 ， 其 中 最 重要 的 是 源 于 它们 固有 的 可 配置 性 和 相对 便宜 的 开发 费用 。 

根据 预测 ， 在 不 同 应 用 领域 中 ，FPGA 的 影响 将 会 持续 增长 ， 而 且 将 来 会 在 更 
多 的 应 用 领域 中 产生 影响 。 当 首次 提出 FPGA 时 ， 它 主要 应 用 于 简单 的 随机 和 定制 
Wa) 。 如 今 ， 每 个 本 科 生 都 有 能 力 基于 FPGA 开发 复杂 的 数字 电路 。 

1985 Æ, Xilinx 公司 介绍 并 上 市 了 世界 上 第 一 款 FPGA XC2004™ , EHT 800 
个 门 [85000 个 晶体 管 ，128 个 逻辑 单元 ，64 个 CLB (Configurable Logic Block, FJ 
配置 逻辑 块 ) 一 一 有 两 个 3 输入 查找 表 的 CLB ， 最 大 时 钟 频率 为 50MHz] 。 这 个 芯 
片 售 价 55 美元 ， 基 于 2.0u 工艺 生产 /站 。 如 今 的 现场 可 配置 微 芯 片 可 以 作为 传统 
门 阵列 和 专用 集成 电路 (Application - Specific Integrated Circuit, ASCI) (如 ARM 
双核 Cortex - A9). 的 混合 电路 ， 软 件 和 硬件 开发 可 以 相对 独立 地 完成 (如 Zyngq 的 
所 有 可 编程 片上 系统 1)。FPGA 达到 了 68 亿 个 晶体 管 中 ， 时 钟 频率 超过 了 千 兆 
赫兹 ， 最 先进 的 技术 是 20nm TES (在 2014 年 已 经 实现 了 14nm 和 10nm T. 
#15) ), 
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在 一 个 工程 中 ， 基 于 FPGA 的 计算 机 辅助 设计 系统 (Computer Aide Design, 
CAD) 允许 不 同 的 规范 、 工 具 和 器 件 〈 比 如 硬件 和 系统 级 的 描述 语言 、 设 计 模 板 、 
IP. FREER ABR) 链接 和 组 合 。 在 同样 的 环境 中 ， 可 以 综合 、 实 现 和 测 
试 相关 电路 ， 这 个 环境 安装 在 PC E, PC 机 又 通过 标准 端口 《如 USB, PCT 和 无 
线 ) 与 原型 验证 系统 相连 。 

WS, TE 50 年 前 提出 的 基于 PC 上 的 高 性 能 系统 的 方法 已 经 实现 了 。 在 本 
章 参 考 文献 【7] 中 详细 论述 了 FPGA 技术 和 架构 的 优点 。 从 1985 到 2013 年 ， 
FPCA 的 容量 增长 了 100000 倍 ， 增 速 非常 快 。 两 个 最 大 的 公司 Altera 和 Xilinx 持续 
占领 着 市 场 *]。 

Xilinx 公司 的 基于 列 的 ASMBL 5 
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( Advanced Silicon Modular Block) — z f HH H 上 M 片 (SLICEM) 
架构 的 7 系列 FPGA 如 图 1.1 所 3I: : DSPH 
示 [91 。 核 心 可 编程 电路 包含 查找 表 Ai [iue e 
(Led Up Table，LUT) 、 触 发 器 和 E: ipii UE 硬 IP 
进位 逻辑 。 一 个 CLB 包含 了 两 个 JHHHHBBHEE 混合 信号 
片 ,将 在 1.2 节 进 行 详 细 介 绍 。 Honni i 










































































DSP 模块 可 以 实现 高 效 处 理 数字 信 

5, MUSA. ik, wem ALL TRA Xili FPGA 的 基本 结构 
逻辑 操作 ， 其 操作 数位 数 多 达 48 位 。FPGA 还 包含 块 存储 器 、 硬 全 核 、 输 入 /输出 
模块 、 时 钟 树 和 混合 信号 管理 器 。 我 们 将 在 这 一 章 介绍 这 些 模 块 。 

不 同 FPGA 模块 : 

1) 配置 模块 ; 

2) 互 连 模块 。 

例如 ,一 个 6 输入 /1 输出 的 LUT 可 以 执行 任何 具有 6 变量 的 布尔 函数 ， 配 置 
可 实现 指定 函数 ，DSP 可 配置 为 执行 算术 和 人 逻辑 操作 的 模块 ， 而 且 对 于 数字 信号 
它 还 提供 许多 额外 的 有 用 特性 和 随后 将 讨论 的 其 他 进程 。 互 连 在 不 同 元 件 的 内 部 引 
脚 间 建立 连接 ， 用 户 定 制 〈 配 置 元 件 和 互 连 ) 通过 重新 加 载 比特 流 到 FPGA 中 实 
现 ， 细 节 详 见 下 面 的 例子 。 因 为 电路 和 系统 的 开发 不 涉及 复杂 的 逻辑 工艺 ， 所 以 
FPGA 非常 适用 于 不 同 设计 思想 的 原型 验证 。 

图 1.2 例证 了 所 示 为 基于 FPGA 设计 的 可 能 情景 ， 使 用 Xilinx 集成 软件 环境 
(ISE 发 布 版 本 14.7) Digilent Adept 软件 6] 和 Atlys 原型 板 [1 , Atlys 原型 板 包含 
Xilinx SPARTAN -6 系列 中 的 xe6slx45 FPGA, 

工程 所 需 的 资源 在 ISE 中 都 可 以 找到 ， 我 们 使 用 电路 原理 图 编辑 器 〈 见 图 1.2 
中 的 点 1) 描述 一 个 3 输入 (x, x», x) 和 1 输出 Cy) 的 电路 ， 探 测 三 位 输入 
向 量 (“xxx”) 中 的 值 “1”。 因 此 ， 当 输入 向 量 为 | “001”, “010”, *"100"| 
AY, y= “1”， 其 他 情况 y=“0”。 这 个 电路 存放 在 文件 SimpleSchematic. sch 中 。 把 
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NET "x1" LOC = "A10"; 可 能 的 测试 
NET "x2" LOC - "D14"; 
NET "x3" LOC = "C14"; 
NET "y" LOC - "U18"; 
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图 1.2 基于 FPGA 设计 的 可 能 情况 


3 输入 (xi, xo, x4) 和 1 输出 (y) 通过 FPCA 引 脚 依次 连接 到 Atys 板 上 的 开关 
Sw0 Swl, Sw2 fil LED (Light Emitting Diode， 发 光 二 极 管 ) Led0。 这 个 连接 在 用 
户 约束 文件 (UCF) 中 指明 ，UCF 命名 为 Atlys. ucf ( 见 图 1.2 中 的 点 2)， 即 AIO, 
A14, C14 和 U18 JH FPGA 外 部 封装 脚 命 和 名， 连接 开关 和 LED 〈 见 图 1.2 中 的 点 
5), NET 关键 字 用 于 约束 确定 的 信号 (在 本 案例 中 指 输入 和 输出 信号 )。LOC 关键 
字 用 来 定义 设计 好 的 元 件 在 器 件 中 的 位 置 。 在 本 章 参考 文献 [12] 中 可 以 找到 关于 约束 
的 详细 信息 。 我 们 的 ISE 工程 (在 图 1.2 的 点 1 与 点 2 之 间 ) 指明 选中 的 FPGA 
(xc6slx45 —3csg324) ， 即 顶层 模块 (SimpleSchematic. sch) 和 为 顶层 模块 明确 引 脚 分 
配 的 UCF (Atlys. ucf) 。 

在 我 们 的 工程 中 ， 下 一 阶段 是 综合 、 执 行 和 生成 程序 文件 〈 见 图 1.2 中 的 点 
3)。 生 成 的 文件 simpleschematic. bit 可 以 配置 FPGA， 可 在 JISE 或 目标 板 的 软件 中 完 
成 ， 比 如 Digilent Adept!!! (WE 1.2 中 的 点 4)。 在 最 后 一 步 ( 见 图 1.2 中 的 点 
5) ， 我 们 判定 FPGA 中 电路 的 功能 ， 使 用 板 自 带 开关 Sw0 、Swl 、Sw2 提供 输入 x1、 
x. x3 的 值 ， 自 带 Ledo 检验 结果 (BI y 的 值 ) 。 电 路 很 简单 ， 只 启用 了 一 片 LUT， 
而 选择 的 FPGA 中 总 共有 27288 片 这 样 的 LUT 可 供 使 用 。 

设计 好 的 电路 可 以 作为 新 工程 的 组 成 部 分 ， 因 此 将 包含 一 个 分 层 。 假 设 我 们 可 
能 需要 分 析 三 组 信号 (x1, X). x3). (x4, Xs, x6) 和 (xy, xg, X9), PEAR HAS 
有 一 组 包含 一 个 值 “1”。 在 ISE 电路 原理 图 编辑 器 中 具有 这 个 功能 的 电路 如 图 1.3 
所 示 。 

首先 ， 我 们 创建 一 个 包含 图 1. 2 中 电路 ( 见 点 1) 的 元 件 。 可 以 在 ISE 中 使 用 
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图 1.3 层次 设计 并 分 析 结果 


选项 Create Schematic Symbol 完成 。 因 为 在 图 1. 2 中 的 整个 名 字 就 是 SimpleSchemat- 
与 元 件 的 名 字 相 同 〈 见 图 1.3)。 元 件 必须 连接 在 新 设计 的 电路 中 ， 就 像 基 本 
单元 库 ( 门 ) 在 图 1.2 中 的 点 1 一样 。Atlys. ucf 如 下 所 示 : 





NET "x1" LOC ="A10"; # Sw0 

NET "x2" LOC ="D14"; # Swi 

NET "x3" LOC = "014"; # Sw2 

NET "x4" LOC = "P15"; # Sw3 

NET "x5" LOC = "P12"; # Sw4 

NET "x6" LOC = "R5" # Sw5 

NET "x7" LOC = "T5" # Sw6 

NET "x8" LOC = "E4"; # Sw? 

NET "x9" LOC = "P3"; # BTND - onboard button available on the Atlys 
NET "y" LOC ="U18"; # LedO 


符号 # 表 示 注 释 ， 注 释 内 容 用 来 表明 电路 引 脚 、FPCA 外 部 引 脚 和 原型 板 的 开 
关 以 及 按钮 之 间 的 映射 关系 。 在 印 制 电路 板 中 关于 FPGA 和 其 他 元 件 的 连接 关系 可 
在 Atlys MOC PARA | 。 

图 1.3 中 的 点 1 例证 了 有 顶层 模块 Top. sch 的 工程 结构 。 很 显然 ， 在 结构 分 层 
中 ， 顶 层 模 块 (Top. sch) 由 四 个 更 低 一 级 的 模块 (SimpleSchematic. sch) 组 成 。 
虚线 箭头 指向 从 ISE 电路 原理 编辑 器 中 复制 的 电路 Top. sch。 点 2 代表 ISE 设计 步 
台 ， 前 面 已 经 简单 讨论 过 了 。Design Summary/Reports ( 见 图 1.3 中 的 点 b) 总 结 了 
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不 同 特性 的 电路 ， 尤 其 是 使 用 的 资源 (在 两 片 FPGA 中 要 求 有 三 片 LUT) 和 延 时 
(最 大 组 合 电 路 的 路 径 延 时 是 9. lns) 。 我 们 有 很 多 其 他 的 选择 ， 比 如 View RTL 
( Register Transfer Level， 寄 存 器 传输 级 ) Schematic。 对 于 我 们 的 工程 ， 将 电路 原理 
图 作为 设计 入口 ， 在 电路 原理 编辑 器 中 也 一 样 〈 虚 线 箭 头 。 代表 的 电路 ) 。 但 是 ， 
电路 原理 图 也 可 以 用 ISE 工具 ， 即 硬件 描述 语言 (Hardware Description Language, 
HDL) 的 规范 建立 ，HDL 被 认为 是 比 电路 原理 图 描述 更 有 效 的 语言 。 点 3 提供 了 
FPGA 的 配置 (编程 )。 在 Atlys 板 中 设计 电路 的 验证 见 点 4。 

尽管 图 1.2 和 图 1.3 中 的 两 个 工程 很 简单 ， 但 是 它们 例证 了 基于 FPGA 设计 的 
基本 步 又 ， 在 复杂 系统 中 也 一 样 。 对 于 Altera Quartus 环境 〈 稍 后 在 Altera FPGA 的 
Quartus13 Web 软件 中 将 例证 一 些 例子 ) ， 也 可 以 使 用 一 个 相似 的 技术 。 例 如 ，Al- 
tera 的 block editor 也 能 实现 电路 原理 图 的 输入 。 注 意 ， 电 路 输入 〈 见 图 1.2 中 的 点 
1) 只 适用 于 简单 电路 ， 因 为 当 电路 设计 复杂 时 容易 出 错 ， 且 难于 验证 ， 因 此 HDL 
变 得 越 来 越 受 欢 迎 。 我 们 将 在 第 2 章 介 绍 VHDL 一 一 超 高 速 集成 电路 硬件 描述 语 
言 。 本 章 我 们 将 更 详细 地 介绍 基本 的 FPGA 元 件 。 





1.2 FPGA 器 件 的 基础 


CLB 是 执行 数字 电路 的 主要 逻辑 资源 。 我 们 将 讨论 两 大 主要 公司 Altera 和 Xil- 
inx 最 近 发 布 的 FPGA 中 使 用 的 这 些 模块 。 


1.2.1 Xilinx FPGA 的 可 配置 逻辑 模块 


我 们 考虑 到 最 近 的 7 系列 FPGA 中 的 CLB 和 常用 的 Spartan -6 系列 FPGA 中 的 
CLB 非常 相似 。 一 个 CLB 由 两 个 连接 到 一 个 开关 矩阵 (实现 通用 的 路 由 矩阵 [9] ) 
的 片 组 成 。 每 片 包含 中 四 个 LUT; @@ 八 个 边沿 触发 的 DD 触发 器 ， 其 中 四 个 可 配置 
为 电 乎 敏感 的 锁 存 器 ; OA reat; @ 算 术 电 路 的 进位 逻辑 。 包 含 多 路 复 用 器 和 
LUT 的 片 可 以 实现 高 达 16: 1 的 多 路 复 用 器 。 

有 两 种 类 型 的 片 ， 即 SLICEL 和 SLICEM。 每 个 CLB 有 两 个 SLICEL 或 者 一 个 
SLICEL 和 一 个 SLICEM, SLICEM 支持 两 个 附加 的 操作 ， 即 在 片 中 存储 数据 ， 片 可 
用 来 组 成 一 个 分 布 式 的 RAM 以 及 可 以 移 位 高 达 32 位 的 数据 。 

每 片 LUT 有 六 个 独立 的 输入 〈xo，…，xs) ,两 个 独立 输出 05 和 06， 可 以 实 
现 配置 : 任何 六 个 变量 (x。，…，xs) 的 布尔 函数 ; @ 任 何 五 个 共用 变量 (x, 
Sox) 的 两 个 布尔 函数 ， 且 xs 必须 设 为 高 电 平 ，@@ 三 个 和 两 个 独立 变量 的 任意 
两 个 布尔 函数 。 传 播 延 时 独立 于 LUT 中 执行 的 函数 。 

考虑 一 个 LUT (6, 1) BF, AN SAX, X4, Xy, X2, X1, Xo 和 一 个 输出 
yo LUT 将 用 来 执行 具有 六 位 二 进 制 向 量 xs, x4, xs. x). xy, xo 的 奇偶 函数 ， 这 
FÉ, HJE xs, X4, X4, X2, Xi, Xo, y 的 汉 明 权重 (Hamming Weight) 为 奇数 (二 
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进 制 向 量 的 汉 明 权重 是 “1” 在 向 量 中 的 个 数 ) 。 函 数 y 的 真 值 表 见 表 1. 1。 
表 1.1 配置 LUT (5, 2) 和 LUT (6, 1) 的 真 值 表 


















































Xa X3 X; X X3 yiyo Hex Xs X4 X3 X2 Xj Xo y Hex Xs X4 X4 X5 X1 XO y Hex 
00000 00 ca 000000 1 100000 0 6 
00001 01 000001 0 100001 1 
00010 10 000010 0 100010 l 
00011 11 000011 1 100011 0 
00100 11 35 000100 0 m 100100 1 9 
00101 10 000101 1 100101 0 
00110 01 000110 1 100110 0 
00111 00 000111 0 100111 1 
01000 01 a5 | 001000 0 6 101000 1 9 
01001 10 001001 1 101001 0 
01010 01 001010 1 101010 0 
01011 10 001011 0 101011 1 
01100 11 59 001100 i 9 101100 0 6 
01101 00 001101 0 101101 1 
01110 10 001110 0 101110 1 
01111 01 001111 1 101111 0 
10000 01 a5 010000 0 6 110000 1 9 
10001 10 010001 1 110001 0 
10010 01 010010 1 110010 0 
10011 10 010011 0 110011 1 
10100 01 ab 010100 1 9 110100 0 6 
10101 11 010101 0 110101 1 
10110 00 010110 0 110110 l 
10111 11 010111 1 110111 0 
11000 01 65 011000 1 9 111000 0 6 
11001 10 011001 0 111001 l 
11010 11 011010 0 111010 l 
11011 00 011011 1 111011 0 
11100 OL gb^** 011100 0 6 111100 1 9* 
11101 11 011101 1 111101 0 
11110 00 011110 1 111110 0 
11111 11 O11111 0 111111 | 
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在 ISE 环境 中 ，Hex 列 包 含 作 为 INIT 属性 的 十 六 进 制 向 量 (可 通过 Obeject 
Properties 获得 ) 。 在 表 1.1 中 ， 向 量 从 标 有 星 号 的 值 开 始 ， 即 第 一 个 数字 是 916 ) : 
9669699669969669,s ， 它 代表 的 二 进 制 输出 y 向 量 为 1001 0110 0110 1001 0110 1001 
1001 0110 0110 1001 1001 0110 1001 0110 0110 1001, 。 

图 1.4 所 示 为 在 ISE 的 电路 原理 图 编辑 器 中 例证 配置 LUT (6,1)。 向 量 
9669699669969669 |, iit Object Properties 赋值 给 INIT 属性 (将 鼠标 放 在 电路 原理 
图 编辑 器 的 LUT 上 ， 单 击 鼠 标 右键 更 改 Object Properties) 。 图 1.5 例证 了 配置 LUT 
(5,2) 执行 表 1.1 中 的 函数 yo F yio 


INIT=9669699669969669 





INIT=a6aa5a3cb5b5955a 
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图 1.4 使 用 Xilinx 原 语 LUT6 图 1.5 使 用 Xilinx 原 语 LUT6 _2 
配置 LUT (6,1) BOB LUT (5,2) 


现在 的 十 六 进 制 向 量 由 16 个 十 六 进 制 阵列 成 ， 并 分 为 两 个 8 数字 的 子 向 量 ， 
这 样 第 一 个 子 向 量 配置 第 一 个 函数 ， 第 二 个 子 向 量 配置 第 二 个 函数 。 在 表 1. 1 建立 
了 向 量 a6aa5a3cb5b5955al6。 第 二 个 子 向 量 b5b5955aj6 配 置 函数 yoo 

在 表 1.1 中 ,一 个 星 号 (* ) 代表 第 一 个 子 向 量 的 始 端 ， 两 个 星 号 ( * x) 
代表 第 二 个 子 向 量 的 始 端 。 图 1.4 和 图 1. 5 所 示 电 路 可 以 通过 开关 提供 输入 和 LED 
显示 函数 值 证 明 。 在 图 1.5 中 ,使 用 一 个 6 输入 LUT, 但 提供 VCC 将 高 位 设 为 高 
EP (“1”), ME LUT (5, 2) 实现 两 个 不 同 的 布尔 函数 ， 这 两 个 布尔 函数 共享 
五 个 变量 。 

在 SLICEM 中 LUT 可 以 执行 一 个 同步 的 (分 布 式 的 ) 具有 单 、 双 或 四 端口 的 
RAM/AROM。 也 可 以 配置 SLICEM 为 不 含 器 件 触 发 器 的 32 位 移 位 寄存 器 。 该 寄存 器 c 
使 其 输入 的 串 行 数据 延 时 1 ~32 个 时 钟 周 期 后 输出 。 延 时 时 钟 数 据 由 专用 的 5 位 输 
入 向 量 控 制 。 图 1. 6 所 示 为 一 个 电路 的 例子 ， 包 含 一 个 基于 LUT 的 256 x1 的 ROM 
和 一 个 大 小 可 变 的 移 位 寄存 器 (1 ~32)。 

Xilinx 早期 的 ROM256 x 1 采用 如 下 的 INIT 属性 编程 .0f0f0f0f0f0f0{0f0{0f0 人 0 
f0f0f0f0f0f0f{0f0{0f0{0f0f0{0f070301013731。 现 在 ， 值 “1” 写 进 地 址 0 (IER HE 
的 右 部 分 ) ， 值 “0” 写 和 地址 1 等 。Clock _ divider 模块 输出 时 钟 信号 ， 频 率 大 约 
为 1Hz，VHDL 代码 见 附录 Bo Xilinx 早期 的 CBSCE 是 8 fiz HE Hit Bait, PÆ 
ROM 地 址 ， 大 约 每 秒 加 1。 总 线 Q (7:0) 和 线 Q (7), =, Q (0) 之 间 通 过 名 字 
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NET "clock" LOC = "L15" NT 7030101873) 
cloci = 3 
NET "clk1H2" LOC = "M14"; ROM256x1 SRLC32E 
































































i Qo A0 
clock divider " d J 
1 — a [so> 
[ clock > cik divided cik si " pa 
ag) A2 ck1Hz —— Dewk oo n 
Q0) ^ $ 
9) — m 5 8 
三 o 
voc Q(5) A5 g m & 
casce | 2 — s : 
s aq’) AT p b 
£ m NET "Sw<0>" LOC = "A10"; 
" hi E . 
g igh aro —7j— o0 Z | NET"Swel»" LOC - "D14"; 
z Œ CEO |—o Size selection NET "Sw<2>" LOC = "C14"; 
S from 1 ("00000") NET "Sw«3»" LOC = "P15"; 
F c x ws to 32 (“11111”) NET “Sw<4>" LOC = "P12"; 
u Swi4:0) 
图 1.6 使 用 LUT (分 布 式 ) 存储 器 (Xilinx 原 语 ROM256 x 1) 和 移 位 寄存 器 (Xilinx 原 语 


SRCL32E) 


相同 连接 ， 类 似 线 clk1Hz 和 high 与 其 相对 应 信号 的 连接 ， 如 图 1.6 所 示 。 工 程 在 
Atlys 板 中 已 经 测 斌 过。 开关 Sw4, ++, SwO 用 来 设置 移 位 寄存 器 的 大 小 ， 可 以 定义 
为 1 (“00000”) ~32 (“11111”)。 所 有 和 FPGA 引 脚 的 必须 连接 ( 见 灰色 和 矩形 区 
域 ) 如 图 1.6 ras, 形成 文件 Atys. ucf。 按 钮 BTND 提供 复位 信号 (只 针对 计数 
器 ， 因 为 移 位 寄存 器 不 需要 清 零 ) 。 三 个 LED (Led2, Ledli, Led0) 用 来 工程 验 
证 。Ledl 获得 clk 1Hz 信号 〈 时 钟 频 率 大 致 为 1Hz)。 因 此 ， 所 有 其 他 信和 号 可 以 根 
据 低 频 信号 依次 验证 (ILE 1.7 所 示 波 形 ) 。 开 关 Sw4，…，Sw0 允许 Led2 ( 移 位 
寄存 器 输出 s out) 的 延 时 根据 Ledo 〈 移 位 寄存 器 输入 s in) 设置 。 例如， 如 果 
Sw4 ，…，Sw0 赋值 “00111”， 则 延 时 八 个 时 钟 周期 ， 波 形 如 图 1.7 所 示 。 工 程 在 
12 个 片上 执行 ， 一 个 片 用 于 ROM， 一 个 片 用 于 移 位 寄存 器 。 一 些 其 他 有 用 的 LUT 
配置 见 本 章 参考 文献 [9] 。 值 得 注意 的 是 ， 基 于 LUT 的 存储 器 可 用 作 配 置 组 合 电 
路 ， 在 执行 期 间 可 改变 功能 。 





Led1: 
Led); y ae errs 
s_in Er 













J 


ur Shift 8 clock cycles (Sw4,...,Sw0 = "00111") SÉS9| — | ve MEC c. PN 
图 1.7 LED 显示 的 信和 号 的 波形 ，Ledl 〈 时 钟 频 率 1Hz) Led2 (数据 
来 自 移 位 寄存 器 ) Ledo (数据 来 自 ROM) 





t "T000 = "1 Ja ttoo = "' £f ji TTTO= YL ‘Tr00="E ; 


1.2.2 Altera FPGA 的 逻辑 器 件 
我 们 考虑 最 新 Stratix - V 系列 的 FPGA 逻辑 器 件 ， 其 有 一 个 核心 可 重 构 结构 ， 
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PNA REJER (Logic Array Block, LAB) /, LAB 由 适应 逻辑 单元 (Adaptive 
Logic Memory, ALM) 组 成 ，ALM 可 以 配置 来 执行 逻辑 、 算 术 和 存储 功能 。 一 半 的 
可 用 LAB 可 作为 存储 LAB (Memory LAB, MLAB) 。 

每 个 LAM 包含 不 同 的 基于 LUT 的 资源 ， 可 执行 任何 多 达 六 个 变量 的 布尔 函 
数 。 而 且 可 以 执行 一 些 其 他 类 型 描述 电路 的 布尔 函数 F (n, m), An 个 输入 ，m 
个 输出 ;如 YF (4, 3) MF (5, 2), 

ALM JT PUKE ; 

(1) 常规 模式 能 够 执行 两 个 多 达 五 个 变量 的 布尔 函数 或 一 个 多 达 六 个 变量 的 
布尔 函数 。 而 且 ， 八 个 变量 数据 输入 允许 实现 确定 的 具有 多 于 六 个 变量 的 布尔 

(2) 扩展 模式 允许 登记 执行 的 布尔 函数 的 结果 。 

(3) 算术 模式 使 用 四 个 4 输入 LUT， 用 于 将 预 加 法 器 逻辑 连接 到 两 个 专用 全 
加 器 。 

(4) 共享 算术 模式 允许 执行 3 输入 加 法 器 。 在 本 章 参考 文献 [13] 中 给 出 了 

MLAB 中 的 每 个 ALM 可 以 编 为 64 x1 或 者 32 x 2 的 模块 。 因 为 每 个 MLAB x 
持 最 大 位 为 640 位 ， 所 以 它 可 配置 为 64 x10 或 者 32 x20 的 简单 双 端 口 静态 RAM。 

对 于 本 书 中 的 一 些 例子 , 我 们 将 使 用 DE2 - 15 原型 机 板 和 Altera Cyclone - IV 
FPGA!'4! 。 这 个 FPGA 的 LAB 包含 逻辑 器 件 组 (Logic Elements, LE), 一 个 LAB 
包含 16 个 LE， 每 个 LE 包含 4 输入 LUT (可 以 执行 任何 4 变量 的 布尔 函数 )、 一 个 
触发 器 (在 本 章 参 考 文献 [14] 中 称 为 可 编程 寄存 器 ) 、 一 个 进位 器 和 一 个 寄存 器 
(一 个 触发 器 ) 。 

LE 操作 分 常规 和 算术 模式 。 对 于 普通 逻辑 应 用 和 组 合 函 数 ， 第 一 个 模式 是 够 
用 的 。 第 二 个 模式 更 适 于 加 法 器 、 计 数 器 、 收 集 器 和 比较 器 。 

因此 ，Xilinx 和 Altera FPGA 的 初期 可 重 构 资源 是 基于 LUT 的。Altera FPGA 的 
最 简单 器 件 是 LEAALM， 它 比 Xilinx FPGA 的 最 简单 器 件 SLICE 包含 更 少 的 资源 。 
两 家 公司 最 先进 的 FPGA 都 包含 6 输入 LUT, 该 LUT 可 配置 来 执行 逻辑 、 存 储 和 算 
术 函 数 。 

在 Cyclone - IV FPGA rp, LE 的 数量 在 6725 ~ 149760 之 间 变 化 。 在 Stratix - V 
FPGA rp, LE 的 数量 在 236K ~ 952K 之 间 变 化 。 本 书 中 ,我 们 将 主要 使 用 Xilinx 
FPGA 的 Spartan -6 和 Artix -7 系列 。 多 数 例子 可 以 轻松 转换 到 Altera FPGA 中 执 
行 ， 我 们 将 为 Altera Cyclone - IV 器 件 考虑 一 些 例 子 。 


1.3 HAR 


除 前 面部 分 描述 的 基本 可 重 构 人 逻辑 外 ， 现 代 FPGA 还 拥有 大 量 的 圣人 模块 ， 这 
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些 模块 可 在 图 1.1 中 Xilinx 7 系列 FPGA 的 基本 结构 中 看 到 (相似 的 戏 人 模块 也 适 
用 于 Altera FPGA'Y!) 。 我 们 将 讨论 这 些 模块 及 其 在 不 同 工 程 中 的 使 用 情况 ， 并 通 
过 一 些 伐 人 存储 器 和 DSP 器 件 〈Spartan -6 系列 和 Xilinx FPGA 系列 7) 的 例子 来 
说 明 。 


1.3.1 HRA REE 


嵌入 存储 模块 或 RAM 模块 在 现代 FPGA 中 普遍 使 用 ， 用 于 高 效 地 存储 和 缓冲 
数据 。Spartan -6 系列 的 FPGA 有 12 ~268 个 RAM 模块 ， 每 个 RAM 模块 存储 多 达 
18KB 的 数据 ， 可 以 配置 为 两 个 独立 的 9KB 的 RAM 或 者 一 个 18KB 的 RAM。 每 个 
RAM 可 通过 两 个 端口 寻 址 ， 也 可 配置 为 单 端口 RAM。 一 个 18KB 的 RAM 的 两 个 端 
口 宽 度 可 相互 独立 配置 为 16K x1, 8K x2, 4K x4, 2K x8, 1K x16, 512 x 32 
( 当 不 使 用 奇偶 位 时 ) 或 16K x1, 8Kx2, 4Kx4, 2K x9, IK x18, 512 x36 ( 当 
使 用 奇偶 位 时 ) 。 数 据 可 以 写 和 人 任意 单 端口 或 者 双 端口 ， 可 以 从 任意 单 端口 或 者 双 
端口 读 出 05] 。 每 个 端口 都 有 其 地 址 ， 数 据 输 入、 数据 输出 、 时 钟 、 时 钟 使 能 和 写 
人 使 能 。 读 出 和 写 人 操作 是 同步 且 需 要 有 效 的 时 钟 边 沿 。RAM 模块 在 FPGA 器 件 
中 组 成 柱状 〈 见 图 1. 1) ， 可 互 连 为 更 广泛 、 更 深入 的 存储 结构 。 将 在 下 章 详细 讲 
解 RAM 模块 的 特征 ， 并 编写 VHDL 代码 来 初始 化 存储 内 容 。 知 识 产权 CIntellectu-- 
al Property, IP) 核发 生 器 和 电路 原理 图 库 原 语 也 可 以 使 用 (第 4 章 将 给 出 一 些 例 
子 )。 

7 系列 FPGA 有 135 ~ 1880 个 


输出 数据 
RAM 模块 ， 每 个 RAM 模块 可 存储 
BIX 36KB 的 数据 。FPGA 支持 36 
和 18KB 的 RAM 模块 06] ， 该 模块 
为 先进 先 出 (First Input First Out- 
put, FIFO) 逻辑 。 每 个 36KB 的 输出 数据 


RAM 模块 可 以 配置 为 32K x 1, 
16K x2, 8Kx4, 4K x8, 2K x16, 
1K x32, 512 x 64. ( 当 不 使 用 奇偶 
位 时 ) 或 者 32K x1, 16K x2, 8K 
x4, 4K x9, 2K x18, 1K x36, 图 1.8 块 RAM 的 简化 结构 
512 x72 ( 当 使 用 奇偶 位 时 ) 。7 系列 器 件 中 RAM 模块 的 其 他 特点 允许 其 使 用 输出 
寄存 器 。 图 1.8 所 示 为 RAM 模块 的 简化 结构 ，nAZnan 是 端口 A/B 的 输入 数据 大 
小 ，mAZma 是 端口 A/B 的 输出 数据 大 小 ，kAZkn 是 端口 A/B 的 地 址 大 小 。 

每 个 RAM 模块 有 两 个 完全 独立 的 端口 ， 对 于 读 写 操作 共用 相同 的 存储 阵列 
( 即 建立 真正 的 双 口 存储 ) 。 在 写 操 作 时 需 避 免 潜在 冲突 ， 这 个 问题 在 本 章 参考 文 
献 [16] 中 已 经 陈述 过 。 
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前 面 已 经 提 到 过 RAM 模块 (7 系列 器 件 是 36KB, Spatran - 6 系列 器 件 是 
18KB) 可 以 分 解 为 两 个 独立 的 RAM 模块 (7 系列 器 件 是 18KB Spatran -6 系列 器 
件 是 9KB) ， 每 块 的 功能 都 类 似 于 初始 模块 。 如 果 需 要 ， 则 一 些 RAM 模块 可 以 组 
成 更 大 的 存储 器 。 

器 件 中 ， 每 个 存储 器 的 进入 〈 读 或 写 ) 都 由 时 钟 控制 !5 .61 。 所 有 的 输入 、 数 
据 、 地 址 、 时 钟 使 能 和 写 使 能 都 是 存在 寄存 器 中 的 。 时 钟 地 址 意味 着 数据 保存 不 
变 ， 直 到 下 一 时 钟 周 期 到 来 。 

现在 ， 对 于 Atlys 原型 机 板 上 的 Spartan -6 FPCA， 我 们 考虑 两 个 简单 的 使 用 
单 、 双 端口 艇 入 式 存 储 器 的 例子 。Xilinx LogiCore 存储 生成 器 将 生成 RAM 模 
H7). 首先， 在 Xilinx ISE 中 ， 增 加 一 个 新 资源 (选项 Preject+New Source) ， 然 
后 选择 IP 和 一 个 SinglePort。 核 生成 器 将 开始 ， 除 了 下 述 操作 其 他 都 保持 不 变 〈 列 
为 六 步 ) : 定义 Memory type (步骤 2) 为 单 端口 RAM、Write Width (步骤 3) 为 8、 
Write Depth (42383) %% 65536 (即使 用 一 些 大 小 为 64KB 的 RAM 模块 来 生成 一 个 
存储 器 ) 和 验证 Load Init File 选项 〈 步 又 4) 〈 即 上 传 一 个 文件 类 型 为 COE 的 初始 
化 文件 ) 。COE 是 文本 文件 〈 如 在 记事 本 中 产生 的 文件 ) ， 标 志 memory _ initializa- 
tion _ radix. (有 效 值 为 2、10 2X 16) Fl memory _ initialization _ vector ( 它 包括 每 个 
存储 器 的 值 ， 在 本 例 中 是 8 位 的 字 )。 任 何 值 都 以 memeory _ initialization _ radix 定 
义 的 基数 写 和 人 。 下 面 的 例子 将 展现 一 个 工程 中 使 用 的 有 效 COE 文件 ( 男 外 的 细节 
可 在 本 章 参考 文献 [17] 中 找到 ) : 

memory_initialization_radix = 16; 

memory_initialization_vector = 

00, 18, 3c, 7e, ff, 7e, 3c, 18, 00, 

80, 40, 20, 10, 08, 04, 02, 01, 00, 

01, 02, 04, 08, 10, 20, 40, 80, 00, 


80, c0, 60, 30, 18, 0c, 06, 03, 01, 00, 
80, c0, e0, 70, 38, 1c, 0e, 07, 03, 01, 00; 


系数 是 由 一 个 空格 、 一 个 逗号 或 在 每 一 行 中 放置 一 个 值 和 一 个 回 车 来 分 隔 的 。 
分 号 表示 确定 行 ， 如 “memory _ initialization radix =16;”。 在 本 例 中 ,存储 器 的 前 
48 字 节 由 COE 文件 填充 ， 剩 余 的 字 节 赋值 FFi。( 验证 了 步骤 4 的 选项 Fill Remai- 
ning Memory Locations ， 并 选 定 FF). ffl Show 使 COE 文件 的 内 容 可 显示 和 检测 。 

在 初代 之 后 ， 单 端口 存储 可 以 用 于 ISE 原理 图 编辑 器 ， 有 点 像 Xilinx 库 原 语 。 
图 1. 9 所 示 为 一 个 简单 电路 的 例子 ， 该 电路 从 RAM 中 读数 据 ， 并 通过 Atlys 的 LED 
显示 ， 序 列 部 分 如 图 1. 10 所 示 〈 很 像 图 1.6，Atlys. ucf 的 相关 约束 见 图 1. 9)。 

图 1. 10 中 的 序列 在 COE 文件 中 的 第 一 行 (00，18，3c，7e,，ff，7e，3c, 18, 
00) 和 第 二 行 (80,， 40, 20, 10, 08, 04, 02, O1, 00) 明确 了 。 如 果 按 下 BTND 
按钮 ， 则 开关 数据 写 入 RAM， 并 通过 LED 灯 显 示 。 因 此 ， 我 们 可 以 检验 写 和 读 操 
作 。 从 ISE Design Summary 中 我 们 可 以 看 出 分 配 了 32 个 RAM 板块 。 一 个 相似 的 存 
储 可 以 被 定义 为 HDL 器 件 。 
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设计 视图 的 工程 结构 E 口 xc6slx45-3csg324 顶层 原理 图 文件 
=]TopLevel.sch 生成 频率 为 1Hz 的 
Clock_divider.vhd 2 时 钟 的 VHDL 文 件 
SinglePort.xco e—> 生成 单 端口 存储 器 
一 一 Atlys.ucf 。 一 > 用户 约束 文件 














clock_divider 
































NET "Sw«0»" LOC = "A10"; NET "Sw<4>" LOC = "P12"; 
NET "Sw«1»" LOC = "D14"; NET "Sw«5»" LOC = "R5"; 
is NET "Sw«2»" LOC = "C14"; NET "Sw«6»" LOC = "T5"; 
Lr Approximately 1 Hz NET "Sw<3>" LOC = "P15"; NET "Sw«7»" LOC - "E4"; 
H 
CC16CE SinglePort 









clock 
enabled 











Q[15:0] addra(15.0) douta(7:0) led(7:0) 


NET "led«0»" LOC = "U18"; 
| NET "BTND«0»" LOC = "P3"; | NET "led<1>" LOC = "M14"; 


TC|—o [BTND(0:0) weal0.0) NET "led<2>" LOC = "N14"; 


NET "led<3>" LOC = "L14"; 











NET "BTNC" LOC 





























clock dka NET "led<4>" LOC = "M13"; 
NET "led«5»" LOC = "D4"; 
NET "clock" LOC = "L15"; | NET "led<6>" LOC = "P16"; 














NET "led«7»" LOC = "N12"; 
图 1.9 单 端口 块 RAM 建立 存储 器 的 简单 例子 〈CC16CE 是 Xilinx 库 原 语 ， 
是 16 位 的 二 进 制 计数 器 ) 
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图 1.10 初始 化 (COE) 文 件 指定 LED 上 的 可 见 序列 


现在 我 们 建立 一 个 双 端 口 存 储 器 ， 步 又 类 似 于 单 端 口 存储 器 。LogiCore 生成 器 
的 大 多 数 操作 除 下 述 外 都 保持 不 变 : 定义 Memory type. (步骤 2) 为 简单 的 双 端 口 
RAM, A 端口 Write Width 为 8 (22983). A 端口 Write Depth 是 8192 (步骤 3) 
(即使 用 最 大 为 8KB 的 一 些 RAM 模块 来 生成 一 个 存储 器 ) 、B 端口 Write Width Jj 1 
(步骤 3) 、 验 证 Load Init File 操作 (2:98 4) AIE, A 端口 配置 为 8192 x8，B 端 
口 配置 为 65536 x1。 使 用 的 下 面 的 COE 文件 (注意 现在 radix 为 2) : 

memory_initialization_radix = 2; 

memory_initialization_vector = 

11001010, 00001100, 00001111, 00001111, 

11111111, 00000000, 11111111, 00000000; 

图 1. 11 所 示 为 一 个 简单 电路 的 例子 ,该 电路 从 COE 文件 中 ， 通 过 A 端口 用 字 
节 值 初始 化 8192 x8 RAM, AMA RAM 中 读 出 ,通过 B 端口 (65536 x 1 RAM) 
单独 输出 Led0 信号 ， 在 Atlys 板 最 右边 的 LED 上 显示 。 


在 本 例 中， 存储 器 的 前 八字 节 填 满 上 面 的 COE 文件 ， 剩 余 字 节 赋 值 FFi。( 验 
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如 果 需 要 就 填充 存储 器 双 端 口 存储 器 
clock divider hrs < . 

clock addra(12:0) 

G Sw(7:0) dina(7:0) 






a 


BARI 
(8192x8) 


BTND(0:0) wea(0:0) 





NET "led«0»" LOC = "U18"; 





Is] dka 
BIE 
ez 
|| » doutb(0:0) 
Sills — displayed 
iu a Ese : on LedO 
zz 从 B 端 
JE: 口 读 出 
Bp (65536 x 1) 

i 

z 














NET "clock" LOC = "L15"; 


图 1.11 简单 双 端 口 块 RAM 建立 存储 器 的 例子 (CC16CE 是 Xilinx 库 原 语 ， 
是 16 位 二 进 制 计 数 器 ) 





证 选项 Fill Remaining Memory Locations 在 步 又 4， 选 择 值 FF ) 。 减 小 的 时 钟 信号 频 
R (大 约 1Hz) 在 Ledl 显示 。 因 此 Led0 〈(B 端口 输出 ) 随 Ledl (相关 的 时 钟 信号 
减少 频率 ) 改变 而 改变 ， 这 些 改变 如 图 1. 12 所 示 。 通 过 二 进 制 8 位 向 量 在 COE X 
件 中 明确 理想 序列 。 从 ISE Design Summary 中 可 以 看 到 分 配 了 四 个 RAM 模块 。 第 
二 个 例子 清楚 证 明了 双 端 口 的 相同 RAM 可 以 有 不 同 的 比率 (8192 x8 对 于 A 端口 ， 
65536 x1 对 于 B 端口 )。 数 据 以 字 节 写 入 到 RAM， 以 位 读 出 。 因 此 ， 许 多 有 用 的 
转换 可 以 在 存储 器 中 直接 产生 ， 不 需要 附加 逻辑 。 所 有 必需 的 细节 可 以 在 本 章 参考 
文献 [15-17] 中 找到 。 


Ledi Led0 LediledO Ledl Led0 ledi Led0 Ledi LedO Ledl Led0  Ledi Led0 Led1 LedO 
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o ©- e- eu“ e- Oo e- Oo 
a eu e- eu e- Oo e- Oo 
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a Oo Oo Oo eu Oo eu Oo 
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11001010, 00001100, 00001111, 00001111, 11111111, 00000000, 11111111, 00000000; 
图 1.12 初始 化 (COE) 文件 指定 Ledo 的 可 见 序列 


1.3.2 #A DSP 模块 


Spartan -6 系列 的 器 件 包 括 8 ~ 180 个 数字 信号 处 理 器 DSP48A1 ， 该 器 件 支持 
一 些 函数 ， 包 括 乘法 器 、 乘 法 累加 器 、 累 加 器 之 后 的 预 加 法 器 /减法 器 、 加 法 器 之 
后 的 乘法 器 、 宽 总 线 多 路 复 用 器 、 大 型 比较 器 和 大 计数 器 5] 。 这 些 类 型 的 函数 在 
DSP 应 用 中 经 常 使 用 。 也 可 以 连接 大 量 的 DSP48Al 器 件 来 形成 广泛 的 数学 函数 、 
DSP 滤波 器 和 不 使 用 普通 FPGA 逻辑 的 复杂 算术 ， 而 FPGA 逻辑 是 低 消耗 、 高 性 能 
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Hj, SEALE, DSPA8AI 器 件 包含 一 个 18 位 输入 前 加 器 ， 接 一 个 18 x 18 的 二 进 制 补 
码 全 乘法 器 和 一 个 48 位 的 符号 扩展 加 法 器 /减法 器 /累加 器 。 图 1. 13 所 示 为 该 器 件 
的 简化 结构 5 ， 其 中 A、B、D 是 18 位 操作 数 ，C 是 48 位 操作 数 , P 是 48 位 结 
果 。 配 置 灰色 多 路 复 用 器 M，M 负责 锁 住 或 不 锁 住 寄存 器 Re, HP Rg 可 在 管道 中 
使 用 。 连 接线 D [11:0], A [17:0], B [17:0] 可 以 直接 作为 多 路 复 用 器 控制 的 
右手 加 法 器 /减法 器 的 操作 数 ， 多 路 复 用 器 不 在 图 1. 13 中 。 结 果 了 也 可 以 作为 加 法 
器 /减法 器 的 操作 数 。DSP48A1 器 件 有 模式 输入 ， 人 允许 单个 右 件 明确 理想 函数 ， 例 
如 加 法 器 是 否 实现 了 加 操作 、 减 操作 ,或 者 失效 ， 如 何 联 系 进位 信号 以 及 如 何 建立 
管道 和 其 他 一 些 情况 等 。DSP 模块 排列 在 竖 直 DSP 柱 中 ( 见 图 1.1) ， 可 以 在 不 使 
用 普通 路 由 源 的 情况 下 轻松 相互 连接 。 这 些 器 件 可 以 在 ISE 工具 的 帮助 下 举例 和 配 
置 ， 并 将 在 本 书 的 4.1 节 和 4.2 节 例 证 ， 也 会 用 到 IP LogiCore 生成 器 。 


前 加 器 D:A:B 并 置 、 
18 
















图 1.13 DSP48Al 片 的 简化 结构 [481 
DSP48E1 器 件 扩展 了 DSP48Al 器 件 的 功能 5591 ， 提 高 了 其 特性 ， 如 图 1. 14 所 
示 。 在 7 系列 FPGA 中 有 240 ~ 3600 个 器 件 可 供 使 用 。 乘 法 器 是 25 x 18 的 结构 ， 
寄存 器 A 扩展 为 30 位， 加 法 器 /减法 器 用 算术 逻辑 单元 替换 ，48 位 操作 数 可 执行 
按 位 逻辑 图 数 ， 而 且 还 加 入 了 模式 探测 器 和 17 RS HE o 


前 加 器 A:BJÉARE 
D N 
48V 

^ i 
U Fg RE 1 
AND, OR, NOT, , 
NAND, NOR, XOR, Rut 

B XNOR 模式 检测 


图 1.14 DSP48E1 片 的 简化 结构 1291 
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我 们 将 用 一 个 简单 的 例子 来 证 明 Spartan -6 系列 的 DSP 模块 在 Atlys 原型 机 板 
上 的 潜在 功能 。DSP 可 由 Xilinx LogiCOre DSP48 宏 命令 生成 和 配置 !”1 。 跟 前 面部 
分 很 类 似 ， 首 先 添加 一 个 新 资源 在 Xilinx ISE (选项 Project 一 New Source) ， 然 后 选 
Æ IP, WHAE DSP _ slice， 启 动 核心 生成 器 。 在 第 一 步 ， 我 们 明确 在 模块 DSP _ 
slice 中 的 算法 结构 ， 如 图 1.15 所 示 。 它 们 可 以 通过 代码 ( 即 输入 sel (1:0)) 选 
TE, 输入 sel (1:0) 左 和 右 的 位 由 按钮 BTNL 和 BTNR 各 自 提供 。 

我 们 定义 四 个 操作 数 A、B、C、D 的 大 小 为 3。 最 高 有 效 位 (2) 代表 信号 ， 
如 果 其 值 为 0， 则 该 数 为 正 ， 否 则 为 负 。 因 为 在 图 1.15 rp, D (2) 总 是 等 于 0，D 
值 总 是 为 正 。 其 他 操作 数 A、B、C 可 正 可 负 , 符号 可 由 各 自 按钮 BTNU、BTNC 和 
BIND 选择 ( 见 图 1.15)。 当 按 下 图 1.15 中 的 任何 按钮 时 ， 产 生 值 “1”。 两 位 无 
符号 操作 数 来 自 开 关 ， 如 图 1. 15 所 示 。 结 果 由 LED (Led6 ，…，Led0) 显示 。 因 
此 ， 如 果 所 有 的 开关 都 是 ON， 则 结果 等 于 如 下 值 : 


> 50) 
[Bi BUF > D(1) 
BUF po DSP slice | 
d(2:0) 


D is always positive 


( D(2) = '0') = [ A(2:0) > a(2:0) 
GND Lamm a 
[ C(2:0)> 


"| BTNL:BTNR "m 97. nrc 
BEEN Vu lain l em, 
图 1.15 简单 应 用 Spartan -6 FPGA 的 DSP 片 
1) “0010101”, *4sel= “00” Hf, AW (343) «343 =21,) =0010101, ; 

2) "0000110", “4sel= "OI" Hf, F473 +3 26,9 20000110, ; 

3) "0010010", ^4sel- “10” HY, HIX (343) *3 218,9 20010010, ; 

4) "0001001", “4sel= “11” Hj, FN (343) 43-9, 0001001, ; 

如 果 按 下 按钮 BIND, ， 则 操作 数 C 变 为 负 值 -1 (使 用 二 进 制 补 码 )。 因 此 ， 当 
sel = “00” 时 ,结果 为 “00010001”: (343) *3-1= 17,9 =00010001,。 从 ISE 
Design Summary 可 以 看 出 ， 使 用 的 是 一 个 DSP 器 件 。4. 1 节 和 4.2 节 以 及 附录 了 B 将 
给 出 一 些 更 复杂 的 例子 用 于 探索 许多 DSP 器 件 的 额外 能 力 。 这 表明 DSP 器 件 在 
HDL 编码 中 作为 器 件 更 有 效 。 因 为 对 于 7 系列 FPGA 的 DSP 器 件 可 以 执行 按 位 逻 
辑 操作 ， 通 过 二 进 制 向 量 和 矩阵 高 效 解 决 组 合 问题 。 而 且 ， 以 四 个 独立 的 12 位 操 
作 数 的 形式 ，48 位 操作 数 的 算法 可 在 一 个 DSP 器 件 中 实现 。 


1.4 时 钟 分 配 和 复位 


为 确保 高 效 时 钟 分 布 ，FPGA 包含 专用 时 钟 输入 、 缓 冲 和 路 由 。 这 些 资 源 由 
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CAD 工具 自动 使 用 。 

为 了 提供 高 性 能 的 时 钟 计时 ，Spartan -6 系列 器 件 包含 2 ~6 个 时 钟 管理 
(Clock Management Tiles，CMT)。 每 个 CMT 有 两 个 数字 时 钟 管理 (Digital Clock 
Managers, DCMs) 和 一 个 锁 相 环 (PIL, Phase - Locked Loop), CMT 用 于 相 移 时 钟 
信和 号， 消除 时 钟 偏 移 〈 对 于 组 成 给 定 电路 的 不 同 器 件 ， 时 钟 偏 移 指 一 个 时 钟 边 沿 
的 到 达 时 间 不 同 ) ， 倍 频 和 分 频 ， 时 钟 频率 综合 ， 转 化 即将 到 来 的 时 钟 信号 使 其 符 
合 不 同 VO PRAE, 

Spartan -6 FPGA 的 时 钟 特 性 是 独一无二 的 ， 如 今 已 用 新 的 7 系列 FPCA 时 钟 
结构 蔡 代 '?*!1 PLL 是 混合 模式 时 钟 管理 (Mixed Mode Clock Manager, MMCM) 的 
TER, BRAE T Spartan -6 FPGA 的 一 些 时 钟 原 语 ， 有 具体 细节 见 本 章 参考 文献 
[21]. 

复位 是 一 个 同步 或 非 同步 信 号 ， 设 置 必要 的 存储 元 素 到 理想 状态 。 在 本 章 参考 
文献 [22] 中 提 到 过 ， 不 管 何 种 类 型 (同步 或 非 同 步 ) ， 复 位 信号 都 需要 与 时 钟 同 
步 。 这 个 避免 了 触发 器 的 潜在 亚 稳 态 。 而 且 ， 在 一 些 电 路 中 (如 状态 机 和 计数 
器 ) ， 所 有 触发 器 的 复位 必须 在 同一 时 钟 边 沿 失效 ， 以 避免 最 终 转换 到 非法 状态 。 
根据 本 章 参 考 文献 [22] ,复位 (高 电 平 有 效 ) 可 以 更 好 地 利用 器 件 来 提高 性 能 。 

复位 桥 电路 如 图 1. 16 所 示 '"] ， 提 供 了 一 个 机 制 来 插入 同步 复位 〈 即 使 没有 
有 效 时 钟 它 也 能 正常 工作 ) 和 失效 复位 同步 。 





Positive reset rst 


时 钟 同步 
复位 信号 





图 1.16 时 钟 同 步 复 位 信号 的 产生 


当 配置 和 重新 配置 一 个 Xilinx FPGA 时 ， 每 个 单元 〈 包 括 触发 器 和 模块 RAM) 
的 初始 化 更 像 是 在 全 局 复位 下 完成 的 ， 即 所 有 的 存储 将 设置 为 它们 明确 的 初始 状 
态 。 因 此 ， 全 局 复位 不 是 总 要 求 的 。 从 本 章 参 考 文献 [22] 中 我 们 可 以 看 出 ， 设 
计 工 具 同 步 信号 初始 化 ， 如 此 在 下 面 的 VHDL 代码 中 , 值 0 赋 给 信号 rg 的 所 有 8 
位 (具体 细节 见 第 2 章 ): 

signal rg: std_logic_vector (7 downto 0) := (others <= ‘0’); 

信号 rg 的 初始 值 (EEF) 在 配置 期 间 变 成 INIT 值 ， 并 载 和 人 到 相关 的 触发 器 
中 。 相 似 模 块 RAM 初始 化 ， 和 COE 文件 一 起 见 1. 3. 1 节 。 因 为 许多 嵌入 器 件 使 用 
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执行 之 后 ， 可 以 分 析 电 路 的 时 间 性 能 、 器 件 资 源 的 利用 情况 和 功率 消耗 。 分 析 ， 
的 结果 可 能 会 迫使 设计 者 改变 电路 规范 、 设 计 约 束 或 综合 策略 等 来 实现 在 相关 的 
CAD 工具 中 优化 目标 。 之 后 ， 重 新 运行 综合 和 /或 执行 。 

一 旦 满意 执行 结果 ， 产 生 的 比特 流 文件 就 可 以 上 传 到 FPGA 中 来 合理 配置 器 
件 。 然 后 ， 将 得 到 的 物理 电路 在 电路 测试 中 进行 最 后 的 测试 。 

在 本 书 中 ， 我 们 主要 使 用 Xilinx ISE 发 布 的 版 本 14.7， 其 中 包含 所 有 的 设计 步 
又 ， 从 电路 规范 到 模拟 、 综 合 和 执行 。 其 他 的 CAD 工具 也 可 以 以 类 似 的 方式 参与 ， 
因为 基本 思想 是 一 样 的 ， 只 是 相关 的 软件 环境 不 同 。 对 于 Altera FPGA 的 一 些 例 
F, 我们 也 会 使 用 Quartus [113 Web 版 本 软件 。 

为 了 总 结 前 面 讨 论 过 的 设计 流程 ， 即 执行 简单 的 全 加 器 并 在 Atlys 原型 机 板 上 
测试 ， 我 们 再 次 考虑 所 有 需要 在 ISE 中 完成 的 步骤。 注意 那 是 ISE 的 免费 版 本 ， 叫 
做 WebPACK， 可 从 Xilinx ai FRI?! 

我 们 开始 新 建 一 个 工程 (option File—New Project) ， 并 明确 目标 FPGA 的 名 字 、 
位 置 和 所 有 的 特性 。 我 们 选择 “Spartan -6” FPGA 系列 ， 并 指明 器 件 XCOSLX45 
和 封装 CSG324。 这 些 数据 可 以 在 设备 共存 的 文档 中 找到 已 4 ， 也 可 以 写 人 合适 的 微 
芯片 a 电路 原理 图 再 次 选 为 顶层 资源 类 型 (设计 和 人口) 。 


一 且 创 建 了 一 个 新 工程 ， 便 软 认 
包括 所 有 资源 
代码 的 设计 层 





ISE 端口 分 为 四 个 区 域 〈 见 图 1. 18) : 
(1) 设计 层次 用 来 展示 文件 ， 关 联 


当前 工程 和 它们 的 层次 组 织 。 我 们 还 没 LX Vedi 
有 创建 任何 文件 ， 因 此 这 些 区 域 的 初始 选择 资源 
情况 是 空白 的 。 


的 ， 总 是 显示 对 于 当前 选择 资源 可 用 的 
进程 。 双 击 进程 名 就 可 开始 进程 。 进 程 图 1.18 ISE 的 默认 界面 
允许 综合 特别 的 设计 人口 文件 ， 明 确 用 户 约束 ， 产 生 编 程 文件 等 。 

(3) Editor 区 域 在 右边 ， 支 持 多 种 形式 的 设计 入 口 ， 比 如 电路 原理 图 编辑 、 





VHDL 文本 文件 编辑 等 。 
(4) Transcript 窗口 显示 进程 编译 和 在 综合 /执行 阶段 可 能 出 现 的 错误 /警告 
信息 。 


为 了 明确 全 加 器 的 电路 原理 图 文件 ， 在 我 们 的 工程 中 增加 一 个 新 的 设计 和 人口 。 
它 可 以 在 选择 操作 中 完成 : Project 一 New Source… 一 Schematic 并 明确 一 个 名 字 ， 例 
如 FA。 假 定 我 们 创建 一 个 简单 的 层次 设计 ， 由 两 个 半 加 器 〈Half Adder, HA) 和 一 
个 或 (OR) 门 构成 FA。 因此 ， 我 们 创建 另 一 个 名 为 HA 的 电路 原理 图 资源 。 图 
1. 19a 所 示 为 HA 电路 ， 用 ISE 库 原 语 的 XOR2 和 AND2 描述 。 接 下 来 为 半 加 需 创 建 
原理 图 符号 ， 可 以 作为 类 似 ISE 库 原 语 的 用 户 库 原 语 使 用 。 图 1. 19b 所 示 为 由 两 个 半 
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加 器 〈 即 提前 创建 的 原 语 ) 和 0R2 门 (在 ISE 库 原 语 中 已 经 存在 ) 组 成 的 全 加 器 。 












"A10"; 
D14 


| 


NET "A" LOC 
NET "B" LOC 


NET "sum" LOC = "U18"; 








[Gam in — — sum 


NET "carry in" LOC = "C14"; " 
b) 
图 1.19 使 用 原理 图 编辑 器 描述 全 加 器 
a) 半 加 器 b) 全 加 器 
为 了 在 Atlys 原型 机 版 上 测 sum 


carry_out| | 


试 该 加 法 器 ， 我 们 需要 布置 加 led7O O O O O O O O tedo 四 mw 
法 器 的 输入 和 输出 到 原型 机 板 A E B B E E E i ernt [O] [o] [O] atnr 
上 的 一 些 器 件 上 ， 以 便 与 电路 leno 
E" HS edet a eak Lal T 
ETJ MAIE, IP 
个 LED 观察 输出 值 ， 如 图 1. 20 图 1.20 提供 输入 并 观察 全 加 器 的 输出 
所 示 。 有 必要 约束 的 Atlys. ucf 文件 行 直接 如 图 1. 19b 所 示 。 引 脚 位 置 可 以 通过 查 
看 Atys 原型 机 版 的 文献 [11] 找到 ，Auys 板 的 完整 UCF 文件 可 在 网 上 找到 号 ] 。 
当 需 要 在 不 同 的 板 上 或 者 使 用 不 同 的 FPCA 执行 设计 时 ， 需 要 调节 使 目标 FPCA 和 
UCF 文件 一 致 。 在 UCF 文件 中 所 有 行 注释 以 “#” 开 始 ， 对 于 Atys 板 的 保留 行 的 
语法 如 下 : 

NET "Input or output name in the top module" LOC = "name of the PIN to connect to"; 

现在 ， 执 行 图 1. 17 中 的 步骤 产生 工程 的 比特 流 。 通 过 Adept 软件 上 传 比特 流 
到 Atys Wi! ( 见 图 1.2) 或 者 直接 从 ISE 中 的 Processes 区 域 选择 操作 Configure 
Target Device。 在 后 一 种 方法 中 启动 了 iMPACT， 使 比特 流 上 传 到 Atys 板 。 最 后 该 
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工程 可 在 硬件 中 测试 。 从 ISE Design Summary， 可 以 看 出 图 1. 19b 中 的 电路 只 占用 
了 两 个 FPGA H (有 6822 个 可 用 片 ) 。 


仿真 在 测试 工作 台 的 帮助 下 完成 。 因 为 测试 工作 台 可 以 用 HDL 描述 ， 所 以 我 
们 将 在 下 章 讲 述 其 特征 ( 见 2.7 节 )。 


没有 必要 一 个 一 个 地 运行 综合 、 执 行 设计 和 产生 程序 文件 进程 。 相反， 可 以 从 
ISE 直接 进行 到 产生 程序 文件 (或 者 到 配置 目标 器 件 ) 选项 ， 这 将 自动 执行 前 面 要 
求 的 所 有 进程 。 





对 于 Atlys HEN) (和 Nexys -4 48092), 我 们 主要 使 用 如 图 1.21 所 示 简 要 描述 
的 设计 步 又 1~8， 并 摘 述 为 如 下 的 对 应 点 : 


@ FileNew Project 指定 名 字 、 地 址 和 工作 目录 
@ 指定 FPGA 系 列 、 器 件 、 包 和 语言 





























































































































@ ion cet: Project > New Source .或 者 添加 /复制 已 存在 资源 un 
(à) 从 不 同 的 资源 描述 项 目 层次 i 原理 图 \ 
图 可 选 的 功能 仿真 m VHDLEE JE \ 
IN iy 
© ”执行 综合 、 实 施 和 生成 编程 文件 m VHDL 包 \ 
/ Bk SESIL A 
Design Summary/Reports DNE VYHDL 测 试 基站 
Design Utilities / IP( 核 生成 器 ) \ 
User Constraints | : \ 
甲 @ synthesis-xsT — / 执行 约束 文件 i 
fl ~ View RTL Schematic i. es A 
| E View Technology Schematic uiti dil — cet jane 
| — Generate Post-Synthesis Simulation Model 
由 图 Implement Design (um) ooansoononoonooonnonon 
LO Generate Programming File — (Aw wm 
AE 
QD 载 入 产生 的 比特 流 到 器 件 中 回回 回 加 加 加 加 
HHARAGHA S E 
EB ce 0] 目 目 日 日 日 日 日 em) o 
1L [ DRWECOU. HR 
(is | pese] rn] BAA RU Por 
图 1.21 本 书 中 使 用 的 设计 步骤 


(1) 介绍 工程 的 名 字 、 位 置 、 工 作 目 录 。 


(2) 选择 FPGA 系列 (如 Spartan -6)、FPCA 器 件 (如 XC6SLX45 ) 、 封 装 
(如 CSG324) 、 速 度 (如 -3) 和 语言 (如 VHDL)。 


(3) 明确 新 的 或 已 存在 的 工程 资源 (设计 入 口 )。 本 书 中 将 使 用 图 1.21 中 的 
主 工程 资源 。 





(4) 基本 上 ,一 个 工程 明确 设计 层次 ， 从 不 同 资源 中 ,顶层 模块 引起 较 低 模 
块 产生 。 这 一 步 我 们 运用 自 上 而 下 、 自 下 而 上 或 者 混合 设计 策略 。 


(5) 可 选 的 功能 仿真 在 不 同 层次 水 平 执行 。 我 们 将 在 接 下 来 的 一 章 讨论 其 
特征 。 


(6) 激活 Generate Programming File (或 者 Configure Target Device) 进程 ， 有 序 
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执行 所 有 的 主要 设计 步 台 ,最终 (如 果 工 程 正确 的 话 ) 产生 比特 流 ( 见 图 1.21). 

(7) 产生 的 比特 流 上 传 到 FPCA。 可 以 使 用 不 同 条 件 来 达到 目的 ， 我 们 将 在 之 
后 讨论 它们 。 重 新 配置 系统 的 一 个 重要 特征 就 是 原型 机 的 可 能 性 、 执 行 设计 、 试 验 
以 及 与 现 有 FPGA 板 数 量 的 比较 。 

(8) 像 前 面 做 的 那样 在 硬件 中 测试 工程 。 在 随后 的 内 容 中 ， 我 们 将 使 用 原型 
机 板 进行 简要 的 讨论 。 执 行 电路 的 证 明 可 以 用 不 同 的 方法 和 工具 完成 ， 比 如 运行 时 
间 信 号 分 析 仪 (如 Xilinx ChipScope) 、 板 上 及 其 连接 的 外 部 器 件 、 存 在 使 能 更 高 层 
次 的 计算 系统 会 话 的 端口 ， 以 及 其 他 。 本 书 中 使 用 的 方法 和 工具 将 在 1.7 节 进 行 简 
要 介绍 。 

本 书 中 描述 的 大 多 数 工程 也 在 Xilinx Vivado 设计 套件 (版 本 2013.4) 中 执行 
和 测试 过 。 每 个 VHDL 工程 可 在 地 址 http: //sweet. ua. pt/skl/Sprigner2014. html 1X 
到 ， 有 一 个 压缩 包 ， 压 缩 包 里 面 有 : 

(1) ISE 的 Atlys 文件 (如 果 只 有 UCF 文件 包含 给 定 的 Atlys); 

(2) ISE 的 Nexys -4 文件 (如果 只 有 UCF 文件 包含 给 定 的 Nexys) ; 

(3) ISE 的 Atlys 和 Nexys -4 文件 (如果 存 在 目录 ISE, 在 目录 ISE 中 存在 
Atlys/Nexys4 子 目 录 ) ; 

(4) Vivado Nexys -4 文件 (如 果 存 在 目录 Vivado) 。 

开始 时 ， 需 要 将 压缩 文件 解压 到 一 套 器 件 中 ， 器 件 可 能 有 : 

(1) 电路 原理 图 文件 * . sch; 

(2) 由 IP core *. xco 文件 在 子 目 录 ipcore dir 产生 ; 

(3) *. vhf 文件 的 VHDL 说 明 ， 由 ISE 从 电路 原理 图 中 产生 ; 

(4) 用 户 约束 文件 *. ucf， 对 于 ISE; 

(5) Xilinx 设计 约束 文件 * . xde， 对 于 Vivado; 

(6) VHDL 文件 x. vhd; 

CI) 比特 流 *. bit， 对 于 程序 FPGA, 

HE ISE 中 的 任意 工程 建立 过 程 如 下 : 

(1) 创建 一 个 新 工程 ; 

(2) 增加 资源 副本 ,如 *. sch，*.vhd，*.ucf，*. xco XF, AKA AR 
ipeore dir; 

(3) 复制 可 用 初始 化 文件 (如 coe, txt) 到 工程 目录 中 ; 

(4) 如 果 存 在 电路 原理 图 文件 ， 则 打开 它 ; 如 果 要 求 更 新 ， 则 更 新 此 文件 ; 

(5) 运行 综合 、 执 行 和 产生 程序 文件 ; 

(6) 配置 目标 器 件 (上 传 比特 流 到 目标 器 件 ) TE FPGA 中 测试 器 件 。 

请 注意 ， 外 部 器 件 (转换 开关 、 按 钮 和 LED), XIF Atlys 和 Nexys -4 板 通常 
是 不 一 样 的 (验证 在 设计 端口 和 前 连接 FPGA 引 脚 之 间 的 响应 ) o 

在 Vivado 中 ， 任 何 工 程 可 能 建立 过 程 如 下 : 
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(1) 创建 一 个 新 工程 ; 

(2) 增加 资源 副本 ， 如 *. vhf, *.vhd, *.xde, *.xco 文件; 

(3) 鼠标 右键 单 击 * . xco 文件 (如 果 这 个 文件 可 用 的 话 ) ， 升 级 IP; 

(4) 运行 综合 、 执 行 和 产生 程序 文件 ; 

(5) 配置 目标 器 件 (上 传 比 特 流 到 目标 器 件 ， 使 用 硬件 管理 器 ) ， 在 FPGA 中 
测试 设计 。 

请 注意 ， 在 VHDL 文件 中 为 Vivado 工程 做 了 小 改变 ， 这些 改 变 可 以 见 网 址 
http ://sweet. ua. pt/skl/Sprigner2014. html, 

举例 证 明 ISE 工程 移出 到 Vivado 工程 可 以 在 附录 B 的 末尾 找到 。 移 出 的 最 重 
要 的 点 在 于 : 

(1) 本 书 中 描述 的 所 有 资源 文件 均 可 以 加 入 到 Vivado 工程 中 ， 和 期 待 的 电路 原 
理 图 ( *. sch) 文件 一 起 。 但 是 ， 由 ISE 从 电路 原理 图 文件 中 产生 的 *. vhf 文件 可 以 
被 使 用 ， 而 不 是 x. sch 文件 。 因 此 ,第 1 章 的 所 有 工程 也 可 以 在 Vivado 中 测试 。 

(2) ISE UCF 文件 不 许 转 化 为 XDC (Xilinx Design Constraints) 格式 ， 在 本 书 
中 作为 一 个 例子 完成 过 程 如 下 : 中 对 于 ISE Design Suite， 打 开 PlanAhead; OXF 
Nexys -4， 在 PlanAhead 中 打开 ISE 工程 〈 如 果 设 计 在 电路 原理 图 中 ， 则 需要 手动 
增加 *. vhf 文件 ); 加 运行 综合 ， 打 开 综 合 的 设计 ; (DTE PlanAhead 的 Tel Console 
中 运行 命令 write _ xde < directory >/ < name > .xde (如 write _ xde c; /tmp/Nex- 
ys4. xde ,在 目录 e: 中 必须 提前 创建 子 目 录 tmp); OÆ Vivado 中 使 用 产生 的 
*. xdc 文 件 (Me: /tmp) 。 在 附录 B 中 有 增加 的 细节 。 注 意 对 于 Nexys -4， 完 整 
AY XDC 文件 可 以 从 Digilint 网 站 http: //www. digilentinc. com/Data/Products/ NEX- 
YS4/Nexys4 _ Master _ xde. zip 上 下 载 。 


1.6 执行 和 原型 机 


市 场 上 有 很 多 基于 FPGA 的 原型 机 ， 在 硬件 中 简化 FPGA 配置 进程 并 提供 支持 
测试 用 户 电路 和 系统 。 本 书 中 第 1 章 的 所 有 例子 为 Alys 原型 机 板 准 备 ''"  ，Atlys 
原型 机 板 由 Digilent 制造 ， 其 包含 一 个 Spartan -6 系列 的 Xilinx FPGA xe6slx45!!7! 。 
随后 章节 的 例子 将 使 用 三 个 原型 机 板 ， 即 Nexys 4097, Adys!!!, DE2 - 1159, 
接 下 来 简要 介绍 。 

Digilent 制造 的 Nexys — 4 板 包含 一 个 来 自 7 系列 FPGA 的 FPGA Artix -7 
xc7al001U?! 。 在 2.5 节 和 附录 A、 附 录 B 中 几乎 所 有 的 例子 都 在 Nexys -4 中 执行 
和 测试 过 。 本 书 中 所 有 工程 的 VHDL 编码 、 用 户 约束 文件 、 比 特 流 可 在 网 址 
http ://sweet. ua. pt/skl/Sprigner2014. html 中 找到 。 将 包含 如 下 板 上 器 件 〈 在 本 章 参 
考 文献 [26] 中 可 以 找到 所 有 必要 细节 ) : 

(1) Xilinx Artix -7TM FPGA xc7al00t — csg324 7! ; 
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(2) USB - JTAG ftl USB - UART; 

(3) 100MHz 时 钟 振荡 ; 

(4) 8 个 7 段 显示 ; 

(5) 16 片 转换 开关 ; 

(6) 16 个 用 户 LED; 

(7) 5 个 用 户 按 钮 ; 

(8) Pmod 扩大 连接 器 ; 

(9) USB 主 连 接 器 。 

在 Nexys -4 板 上 的 FPGA 可 以 用 一 些 方法 配置 [%1 。 本 书 中 ， 我 们 将 用 如 下 两 
个 方法 配置 板 

(1) 从 ISE 环境 (选项 Configured Target Device) FU iMPACT 工具 ， 通 过 USB 
JTAG/UART; 

(2) 从 USB 存储 操纵 杆 连接 USB 主 连接 器 。 

请 注意 ， 从 Adept 软件 中 配置 板 是 不 支持 的 ，Digilent 器 件 IOExpansion (和 考 
虑 使 用 Atlys 板 的 例子 ) 也 是 不 能 使 用 的 -30 。 

第 2.5 节 的 许多 例子 也 将 在 Atlys 原型 机 板 中 测试 [1 。 将 包含 如 下 板 上 器 件 
《所 有 关于 这 些 器 件 的 必要 细节 可 在 本 章 参考 文献 [11] 中 找到 ): 

(1) Xilinx Spartan -6 xc6slx45 - csg324 FPGAL27] ; 

(2) 对 于 编程 和 数据 传送 的 USB - UART 和 USB 端口 ; 

(3) 100MHz 时 钟 振荡 ; 

(4) 8 片 转换 开关 ; 

(5) 8 个 用 户 LED; 

(6) 5 个 用 户 按钮 ; 

(7) 复位 按钮 。 

本 书 中 ， 我 们 将 用 下 面 的 两 个 方法 配置 Atlys 板 : 

(1) 从 ISE 环境 (选项 Configured Target Device) 41 iMPACT 工具 ;通过 USB 
JTAG/UART; 

(2) 从 Digilent Adept 软件 001 ， 通 过 USB JTAG/UART, 

Atlys 板 有 有 限 个 板 上 用 户 开 关 和 LED， 但 是 它 由 Adept 软件 支持 ， 通 过 虚拟 
窗口 和 主机 互 连 ， 连 接 许 多 虚拟 外 部 元 素 ''!， 方 便 开展 电路 的 简单 测试 。 本 书后 
面 的 例子 中 ， 虚 拟 器 件 可 用 是 支持 Atlys 板 的 主要 因素 。 

几乎 第 2 章 的 所 有 例子 和 3.5 节 的 一 些 例子 也 在 DE2 - 115 板 上 测试 [3] ,- 包 
1 —^" Altera Cyclone - IVe EP4CE115 FPCA。 主 目标 是 例证 工程 的 主要 任务 是 技术 
独立 ， 可 在 不 同 公司 的 FPGA 中 实现 。 将 包含 如 下 板 上 器 件 〈 所 有 关于 这 些 器 件 的 
必要 细节 可 在 本 章 参考 文献 [28] 中 找到 ) : 

(1) Altera Cyclone - IV EP4CE115F29C7 FPGA U% ; 
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(2) FPGA 程序 的 USB Blaster 端口 ; 

(3) 50MHz 时 钟 振荡 ; 

(4) 8 个 7 段 显 示 ; 

(5) 18 片 转换 开关 ; 

(6) 26 个 用 户 LED (18 个 红色 和 8 个 绿色 ) ; 

(7) 4 个 用 户 按钮 。 

从 主机 的 FPCA 编程 的 唯一 方法 就 是 本 书 中 使 用 的 通过 USB Blaster 端口 。 

在 4.5 节 我 们 将 简要 描述 Xilinx 的 所 有 可 编程 片上 系统 (All Programmable Sys- 
tems on Chip, APSoC), ， 特 别 是 Zynq 系列 。ZedBoard 可 使 用 一 片 这样 的 微 芯 片 
(xc7z020) [3 。 因 为 器 件 xc72020 组 成 Xilinx Artix -7 FPGA, ， 所 以 可 直接 使 用 本 书 
的 所 有 例子 ， 而 且 它 们 的 主要 部 分 在 ZedBoard 上 已 经 测试 过 。 但 是 在 随后 的 章节 
中 不 再 考虑 相关 的 执行 。 

# 1.2 和 表 1.3 给 了 关于 上 述 的 Xilinx ( 见 表 1.2) 和 Altera ( 见 表 1.3) 
FPGA 的 一 些 细节 。 这 里 ， Ns 是 FPCA 片 的 数量 ; Nior FPGA LUT 的 数量 ; Nr 是 
FPGA 的 数量 ; Npsp 是 对 于 xe6slx45 (xc7al00t/xe7z020) 微 芯片 的 DSP48A1/ 
DSP48E1 的 数量 ;Nasg 是 对 于 xc6slx45/( xc7a100t/xc72020 ) 微 芯 片 数 量 ; Mke de X 
人 模块 RAM 的 大 小 (KB). 的 18/36KB 模块 RAM 的 数量 ; Nis 是 逻辑 器 件 的 数量 ; 
Ner ÆRA 18 位 操作 数 乘法 器 的 数量 ( 即 I8 x18) 。 

表 1.2 Xilinx FPGA 的 特性 (Atlys, ZedBoard, Nexys -4) 





板 FPGA/APSo Ng Niur Ne Nosp Nor Meks 
Atlys xc6slx45 6822 27288 54576 58 116 2088 
ZedBoard xe7 2020 13300 53200 106400 220 140 5040 
Nexys -4 xc7 al005 15850 63400 126800 240 135 4860 


31.3 Altera FPGA 的 特性 (DE2 - 115) 


板 FPGA Nig Mke Nep 
ED2 - 115 4CEI15 114480 3888 266 


Xilinx FPGA 的 工程 将 在 Xilinx ISE 14.7 软件 中 创建 。 在 专用 工程 中 使 用 器 件 
的 总 数量 和 可 用 的 总 数量 可 在 ISE Design Summary/Reports 中 找到 。 如 果 验 证 在 前 
面 已 经 完成 的 工程 ， 则 可 以 发 现 占用 的 FPGA 资源 的 数量 和 可 用 资源 的 总 数量 相 比 
是 微不足道 的 。 因 此 ， 所 选择 的 板 ( 尽管 是 低 成 本 的 ) 可 以 完成 复杂 电路 和 系统 。 
在 Altera FPGA 中 设计 的 工程 将 在 Quartus I 版 本 13 Web Edition 软件 中 创建 。 

在 随后 的 内 容 中 描述 的 方法 和 工程 将 覆盖 一 些 区 域 ， 如 图 1.22 所 示 。 应 特别 
关注 图 1. 22 的 右边 部 分 。 

每 个 工程 将 使 用 1.7 节 介 绍 的 方法 和 工具 在 硬件 中 进行 验证 。 

因为 两 种 原型 机 板 (OK A Digilent 的 Atlyst "和 Nexys 409). 将 用 于 本 书 中 
的 所 有 例子 ， 因 此 我 们 回顾 更 多 关于 这 些 板子 的 细节 。 除 了 上 述 器 件 ， 许 多 其 他 器件 
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广泛 应 用 和 重复 使 用 的 
数字 电路 (第 2、3 章 和 附 
录 B) 





数据 处 理 ， 即 排序 、 搜 














索 和 辅助 操作 (第 3 、4 章 
P 特征 : 
[ l \ 
汉 明 权 值 计数 器 (比较 (1) 强调 广泛 的 并 行 性 和 高 速 处 理 
器 (第 3、4 章 和 附录 B) — 0 HDL 编 码 技术 成 大 可 用 于 线 上 








处 理 (第 3 章 ) 








与 主机 交互 (第 4 章 ) 








(并 行 ) 层 次 有 限 状态 
机 的 计算 (第 5 章 ) 












— 


K 1.22 本 书 中 的 方法 和 工程 
允许 扩展 已 完成 的 工程 以 : 
及 设计 新 的 更 先进 的 电路 
和 系统 。 这 些 特征 对 于 教 


@) 
育 特别 有 价值 。 我 们 简要 ron Oe 
描述 Adys 和 Nexys -4 板 
的 基本 能 力 和 布局 (Digi- 
lentIne 授权 ) 。 | 人 Orr 
Anya" 的 主要 器 件 T 
和 连接 器 如 下 ( 见 图 


1.23) ; led? Led0 
(1) Xilinx Spartan — eoe 000 GD Men 








lOl lO] lO] 
6 xcGslx45 FPGA; a» AGA PA 目 目 目 oa 
(2) 128MB DDR2 w 一 
(Double Data Rate), 16 图 1.23 Digilent 的 Atlys 原型 机 板 的 简化 布局 
位 带宽 数据 ; 


(3) 16MB ( x4) SPI (Serial Peripheral Interface) Flash， 对 于 配置 和 数据 存储 ; 
(4) 10/100/1000 以 太 网 ; 


(5) USB2 (Universal Serial Bus) 端口 ， 对 于 编程 和 数据 传送 ; 
(6) USB - UART ( Universal Asychronous Receiver/Transmitter) 和 USB - HID 


(Human Interface Device) 端口 〈 对 于 鼠标 /键盘 ) ; 


o 基于 FPGA 的 系统 优化 与 综合 





(7) HDMI (High - Definition Multimedai Interface) 视频 输入 和 输出 端口 ; 
(8) AC -97 Codec (Coder - Decoder), USB - HID (Human Interface Device), 


line - in, line - out, mic, headphone; 


(9) 100MHz 振荡 时 钟 资源 ; 

(10) 8 个 用 户 LED; 

(11) 5 个 按 下 按钮; 

(12) 8 个 滑动 开关 ; 

(13) 电力 连接 器 和 接 电 LED 指示 需 ; 

(14) 2x7 编程 JTAG (Joint Test Action Group) 连接 器 ; 
(15) PMod (Peripheral Module) 扩展 连接 器 (2x6); 
(16) 高 速 扩展 连接 器 ; 

(17) 复位 按钮 。 

板 上 FPCA 可 用 以 下 三 个 方法 配置 

(1) 从 USB 连接 的 电脑 对 比 Adept USB - JTAG 端口 ( 见 图 1.23 的 5), 或 者 


直接 从 JTAG 连接 器 ( 见 图 1.23 的 14); 


(2) 从 SPI Flash ( 见 图 1.23 的 3) ， 提 供 配置 文件 ， 提 前 在 闪存 中 存 好 ; 
(3) 从 一 个 USB 内 存 条 连接 到 USB HID 端口 ( 见 图 1.23 的 6)。 
BEA (Hd 1.23 PRA) 允许 选择 要 求 的 配置 方法 (细节 可 在 本 章 参考 文献 [11] 


中 找到 ) 。 


Nexys - 4U61 &13& —^- 7 系列 Xilinx 的 Artix -7 xc7al00t FPCA。 主 要 的 器 件 和 


连接 器 如 下 〈 见 图 1.24) : 


28 








微型 控制 器 ， 可 以 驱 
ayer, Bk, DA 


® 配置 模块 跳 线 
I UB ， 以 及 [^T 100 MHz 
执行 一 些 额外 功能 


m] Cae 
ae oe 




























15850 个 逻辑 器 件 F 
; ”RAM 模块 为 4860KB — i aD 
: 240 个 DSD 器 件 i GO 
a A 

n am E^ BE. 
i durch i Artix-7™ 16MB 伪 (22) 
:每 片 有 4 个 6 输入 i FPGA 静态 DRAM PMod 
i LUT 和 8 个 触发 器 XC7A100T 连接 器 
—X — CSG324 5 





CD 加 BTNU 


“_(6) |o jam 加 | 回 [o] ste 
G5) 数码 显示 管 Qo qe [B] mpg 
| 1 | (14) iad PMod 
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图 1.24 Digilent 的 Nexys -4 板 的 简化 布局 
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(1) Xilinx Artix -7™ FPGA xc7al00t — csg324 ; 

(2) 128Mb =16MB Celluar RAM; 

(3) 128Mb =16MB SPI (4 fij - SPI) Flash; 

(4) 10/100 以 太 网 ; 

(5) USB -JTAG 编程 和 USB - UART; 

(6) 传声器 ; 

(7) 音频 连接 器 ; 

(8) 100MHz 时 钟 振荡 ; 

(9) 16 个 用 户 LED; 

(10) 2 个 3 色 用 户 LED; 

(11) 5 个 用 户 按 钮 ; 

(12) 16 个 滑动 开关 ; 

(13) 电力 连接 器 和 上 电 LED 指示 器 ; 

(14) JTAG 端口 ; 

(15) 5 个 Pmod 扩展 连接 器 (2 x6); 

(16) 2 个 复位 按钮 ; 

(17) fk SD Fimi; 

(18) VGA ie fte ; 

(19) USB 主 连接 器 ; 

(20) 微 控 制 器 ; 

(21).8 个 7 Econ iY; 

(22) 温度 传感器 ; 

(23) 加 速 器 。 

Nexys -4 板 上 的 FPGA 可 使 用 以 下 4 种 方法 配置 ， 即 Quad - SPI, SD 卡 、USB 
JTAG, USB 内 存 条 。 图 1. 24 中 的 跳 线 选择 要 求 的 配置 模式 ， 具 体 细 节 见 本 章 参考 
文献 [26]. 


1.7 基于 FPGA 的 电路 和 系统 的 交互 


TE FPGA 上 执行 的 电路 和 系统 需要 与 外 部 器 件 通 信 ， 外 部 器 件 提供 初始 数据 并 
使 用 结果 ， 往 往 涉及 运行 共存 的 不 同类 型 。 当 问题 解决 器 在 FPGA 中 ， 尤 其 是 在 外 
部 器 件 中 执行 时 ， 后 者 是 需要 的 。 本 书 中 使 用 的 互 连 如 图 1. 25 所 示 。 

最 常 涉及 的 外 部 器 件 是 图 1.25 中 的 器 件 1 (也 可 以 见 图 1.23 和 图 1.24) 。 因 
为 这 类 器 件 的 数量 和 可 用 性 随 不 同 原型 机 板 改变 ， 所 以 使 用 类 结构 和 约束 可 能 会 遇 
到 困难 。 而 且 ， 支 持 简 单数 字 控 制 的 电路 也 可 能 不 同 。 例 如 ，DE2 -115 板 的 7 E 
显示 器 单独 管理 ， 并 且 在 Nexys -4 中 ， 所 有 具有 相同 名 字 的 部 分 (数量 /索引 ) TH 
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板 集 外 围 设 备 m 
7 段 显 示 器 [O] stnu 
- BTNLIO [©] [O] eTR 


7 0 «& pemo 
sene 150 0000000000000009, 


LED 
es :BBHHHBHEHBEHRBHBBH: 
拨 动 开关 
图 1.25 本 书 使 用 具有 外 部 设备 /系统 的 不 同类 型 的 交互 
互 连 接 。 这 意味 着 显示 控制 器 〈 在 附录 B 中 用 VHDL 编码 描述 ) 可 以 用 于 Nexys - 
4 板 ， 也 可 以 稍 加 改变 后 用 于 其 他 Diligent 板 ， 这 些 板 都 有 分 段 显 示 区 (AI Nexys = 
2/Nexys -3) DE2 - 115 板 〈 除 分 段 解 码 器 外 ) 不 要 求 。 

在 本 书 接 下 来 的 章节 中 ， 我 们 将 考虑 板 的 特性 ， 并 非 总 能 提供 普遍 可 参数 化 的 
规范 。 当 完成 的 电路 和 系统 通过 外 部 器 件 互 连 时 ， 它 们 依赖 于 选择 的 原型 机 板 。 提 
到 的 依赖 性 不 意味 着 完成 的 电路 和 系统 是 技术 导向 且 不 能 被 其 他 板 使 用 的 ， 只 需 做 
一 些 修改 (主要 是 输入 /输出 端口 的 设计 和 引 肢 分 配 ) 就 可 以 被 其 他 板 使 用 。 这 也 
是 为 什么 在 接 下 来 的 章节 中 我 们 经 党 指定 具体 需要 使 用 的 板 。 

更 高 水 平 的 系统 〈 见 图 1.25 的 点 2) 对 于 互 连 、 试 验 、 评 估 结 果 非 常 有 用 。 大 
多 数 实 际 应 用 中 ， 由 于 显著 的 通信 开销 ，FPGA 不 能 在 这 类 互 连 中 作为 硬件 加 速 器 使 
用 。 但是, 很 多 有 用 的 设置 可 视 为 是 恰当 的 。 例 如 ， 一 个 更 高 水 平 的 系统 ， 如 一 个 主 
机 ， 可 以 对 在 FPGA 中 的 进一步 进程 提供 初始 数据 ， 评 估 在 FPGA 电路 中 执行 的 运行 
特性 ， 接 收 和 验证 进程 结果 等 。 对 于 此 类 进程 ， 我 们 将 使 用 图 1. 25 中 的 互 连 2。 

为 了 读 出 初步 存储 的 可 用 于 填充 阵列 和 骨 入 存储 的 文本 数据 集 ， 我 们 将 重 现 文 
件 ( 见 图 1.22 的 点 3)。 文 件 也 可 能 从 硬件 描述 写 人 ， 用 于 保持 可 能 对 排除 故障 有 
帮助 的 常量 。 

外 面 的 外 围 设备 〈 见 图 1.22 的 点 4) 可 以 通过 连接 器 (如 Digilent 产品 的 
PMod''!!) 连接 。 但 是 很 少 这 样 用 ， 而 主要 是 用 于 原型 机 板 互 连 ， 使 外 围 设 备 的 数 
量 (如 滑动 开关 和 LED) 增加 ， 因 为 接触 板 的 需 件 也 可 能 被 使 用 。 

开发 的 电路 和 系统 中 的 参数 化 通过 常数 和 类 的 参数 的 使 用 来 实现 ， 这 些 值 可 以 
轻松 改变 ， 以 引起 电路 和 系统 的 改变 ， 最 后 定制 复杂 设计 。 因 此 ， 设 计 以 适应 不 同 
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维度 问题 进行 调整 。 尽 管 要 求 此 类 技术 ,但 它 不 总 是 可 行 的 ， 尤 其 是 当 使 用 的 器 件 
有 不 同 的 不 相 容 结构 时 。 而 且 ， 对 于 一 个 公司 的 FPGA BORE AE. GR AKA 
块 等 许多 特征 在 建立 时 ， 不 能 等 同 地 应 用 到 另 一 家 公司 的 有 不 同类 型 的 专用 库 、 原 
aA ABER FPGA 中 。 在 随后 的 内 容 中 ， 所 有 涉及 Xilinx 原 语 和 库 的 工程 ， 只 
可 以 在 具有 兼容 Xilinx FPGA 的 结构 中 执行 。 提 供 必 要 的 调制 ， 它 们 也 可 以 被 其 他 
的 FPGA 使 用 。 而 且 ， 对 于 执行 电路 的 资源 有 效 性 和 表现 性 可 能 也 会 不 一 样 。 

从 1.6 节 可 知 ， 外 部 器 件 的 数量 是 有 限 的 。 在 随后 的 内 容 中 ， 我 们 执行 和 评 佑 
的 电路 和 系统 要 求 更 大 数量 的 输入 和 输出 ， 通 常 超出 了 可 用 FPGA 的 引 脚 数 。 以 下 
的 两 个 技术 将 被 使 用 : 中 辅助 电路 评估 设计 ， 辅 助 电路 提供 输入 信号 并 分 析 输 出 信 
号 〈 如 随机 数 生成 器 、 比 较 器 和 计数 器 ) ; 包 通 过 与 更 高 水 平 的 系统 的 互联 (如 一 
台 主 机 ) 。 

现在 再 多 讨论 一 点 2。 对 于 Digilent 原型 机 板 ， 探 索 三 个 类 型 的 互联 ， 如 图 
1. 26 所 示 。 










开发 的 硬件 模块 和 软件 开发 工 
具 ， 基 于 Digilent 并 行 接 口 通 信 
模块 和 DPCUTIL API 软 件 









”板子 不 支持 Digilent 
增强 型 并 行 端口 的 
数据 传输 能 力 ( 如 Nexys-4) 
图 1.26 本 书 中 使 用 的 更 高 级 的 系统 的 交互 类 型 

第 一 类 针对 原型 机 板 ， 不 支持 Digilent 增强 并 行 端口 (Enhanced Parallel Port, 
EPP) 数据 传送 能 力 。 完 成 的 软件 和 硬件 模块 见 4.3 节 和 4.4 节 。 

第 二 类 用 于 支持 Digilent EPP 数据 传送 能 力 的 原型 机 板 ( 见 4.3 节 和 4.4 节 )。 

第 三 类 用 于 由 Digilent Adept 软件 管理 的 虚拟 窗口 实现 的 互 连 ， 涉 及 用 VHDL 
描述 的 相关 Digilent IOExpansion 器 件 。 因 为 这 和 类 型 完全 基于 Digilent 产品 中， 所 
以 和 Atlys 板 一 起 将 在 随后 章节 的 一 些 例 子 中 使 用 ， 并 展现 更 多 细节 。 

初始 的 目标 是 扩展 可 用 输入 /输出 器 件 的 数量 。 这 个 特性 由 Digilent 板 提供 ， 
Digilent 板 提供 支持 EPP!'°! 。 例 如 ，Atys，Nexys -2 和 Nexys -3 板 支持 这 类 特性 ， 
但 是 Nexys -4 不 支持 。 








通过 虚拟 窗口 交互 ， 由 D 
Digilent Adept 软 件 管理 


扩展 的 输入 /输出 控制 包括 : 
(1) 24 个 灯 管 ; 
(2) 8 ^ LED; 
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(3) 16 个 按钮 ; 

(4) 16 个 滑动 开关 ; 

(5) 32 位 数据 ， 由 主机 传输 到 FPGA 〈 可 用 二 进 制 、 十 六 进 制 、 十 进 制 ， 可 
用 有 符号 和 无 符号 形式 ); 

(6) 32 位 数据 ， 由 FPGA 传输 到 主机 〈 可 用 二 进 制 、 十 六 进 制 、 十 进 制 ， 可 
用 有 符号 和 无 符号 形式 ) 。 

在 本 部 分 ， 我们 将 例证 两 个 简单 的 工程 ， 使 用 Digilent IOExpansion VHDL £s 
TF, 后 者 可 从 本 章 参 考 文献 [30] 下 载 。 第 一 个 工程 执行 如 下 操作 〈 更 多 的 细节 
见 图 1. 27): 

a) Digilent Adept virtual window on a host PC 

















Slide Switches 


b) 


图 1.27 Atys 原型 设计 板 与 主机 之 间 使 用 Adept 软件 交互 
a) 主机 的 虚拟 窗口 b) Atlys 板 的 板 集 设 备 c) 交互 


(1) 接收 来 自主 机 虚拟 窗口 的 32 位 数据 条 ， 然 后 送 回 到 主机 ; 

(2) 接收 来 自 虚拟 窗口 按钮 的 16 位 向 量 ， 然 后 在 前 16 个 灯 管 上 展示 这 些 向 

(它们 是 红色 和 黄色 的 ) ， 这 些 灯 管 是 在 虚拟 窗口 位 于 右手 边 的 24 个 灯 管 ; 

(3) 接收 来 自 电 脑 窗口 更 低 开 关 的 8 位 向 量 ,， 在 Atys 板 的 可 用 LED. 上 显示 这 
些 向 量 ; 

(4) 接收 来 自 电 脑 窗口 更 高 开关 的 8 位 向 量 ， 在 最 后 8 个 灯 管 上 显示 (它们 
是 绿色 的 ) ， 这 些 灯 管 是 电脑 窗口 的 24 个 灯 管 左手 边 的 灯 管 ; 

(5) 接收 来 自 Atlys 板 上 可 用 转换 开关 的 8 位 向 量 ， 在 电脑 窗口 LED 上 显示 这 
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些 向 量 。 

工程 的 项 层 设计 入 口 可 以 在 ISE 的 电路 原理 图 编辑 器 中 准备 ， 如 图 1.28 所 示 。 开 
始 时 ，IOExpansion 器 件 的 VHDL 文件 必须 从 本 章 参考 文献 [30] 中 下 载 ， 电 路 原理 图 
符号 IOExpansion 必 在 ISE 中 创建 。 其 他 器 件 (OBUF8 Ail BUF) 是 Xilinx 库 原 语 。 
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图 1.28 用 于 与 主机 交互 的 工程 





工程 要 求 如 下 用 户 约束 文件 : 

NET "EppAstb" LOC = "B9" # UCF for the Atlys board 

NET "EppDstb" LOC = "A9" 

NET "EppWr" LOC ="C15", 

NET "EppWait" LOC ="F13", 

NET "EppDB<0>" LOC = "A2" 

NET "EppDB<1>" LOC - "D6"; 

NET "EppDB<2>" LOC - "C6"; 

NET "EppDB<3>" LOC - "B3" 

NET "EppDB<4>" LOC - "A3"; 

NET "EppDB<5>" LOC = "B4" 

NET "EppDB«6»" LOC = "M". 

NET "EppDB<7>" LOC ="C5", 

NET "led<0>" LOC ="U18"; # remove for the second project 
NET "led<1>" LOC ="M14". # remove for the second project 
NET "led<2>" LOC ="N14"; # remove for the second project 
NET "led<3>" LOC ="L14" # remove for the second project 
NET "led<4>" LOC = "M13" # remove for the second project 
NET "led<5>" LOC = 'D4*; # remove for the second project 
NET "led«6»" LOC ="P16"; # remove for the second project 
NET "led<7>" LOC = "N12" # remove for the second project 
NET "Sw<0>" LOC = "A10"; # remove for the second project 
NET "Sw<1>" LOC = "D14" # remove for the second project 
NET "Sw<2>" LOC 7 "C14"; # remove for the second project 
NET "Sw<3>" LOC z"P15" # remove for the second project 
NET "Sw<4>" LOC ="P12", # remove for the second project 
NET "Sw<5>" LOC ="R5", # remove for the second project 
NET "Sw<6>" LOC ="T5": # remove for the second project 
NET "Sw<7>" LOC ="E4": # remove for the second project 
执行 下 列 步骤 测试 电路 : 
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(1) 生成 比特 流 〈 见 图 1. 21 的 步骤 指示 ) VERE Atlys 板 到 主机 ， 通 过 合适 的 
USB 插座 ， 使 用 Adept 软件 将 生成 的 比特 流 上 传 到 板 上 ; 

(2) 在 虚拟 窗口 选择 可 用 的 1/0 Ex 标签 ; 

(3) 按 下 开始 VO 按钮 ( 见 图 1. 27a) ; 

(4) 板 互 连 ， 一 些 例子 如 图 1.27a 和 图 1.27b 所 示 ， 假 定 虚拟 窗口 的 黑色 按钮 
用 鼠标 按 下 。 

第 二 个 工程 是 使 全 加 器 (1.5 节 描述 的 ) 在 虚拟 窗口 测试 ， 如 图 1.29 所 示 。 


a0) _ — «n ce) ER 
BUF BUF 
C 
C(5) Wed(6) C(4) led(4) SE p edi) 
BUF BUF BUF 


IOExpansion 








£ «|| — «9 





camyin — carry out lect) 


图 1.29 用 于 在 虚拟 窗口 测试 1.5 节 的 全 加 咒 的 工程 


开始 时 ， 电 路 原理 图 符号 FA OOOOOO O1@0 
在 ISE 中 创建 ， 表示 全 加 费 电 路 ， S carry_out bs 
如 图 1. 19b R AEF E [Bl [9] [3I [9] [O] [9I (OI [9j 
不 需要 LED 和 开关 ， 所 以 有 16 行 | 
必须 从 UCP XH OBI BD Qi 0 Gi Bai Gi Gi ie 
# remove for the second project # id ) $ R O 


移 除 。 相 同 的 1~4 步 又 在 前 面 已 。 D oT 
经 完成 了 。 全 加 器 的 功能 通过 使 “图 1.30 测试 全 加 器 的 虚拟 窗口 的 元 素 
用 虚拟 窗口 开关 和 LED 测试 ， 如 
图 1. 30 所 示 。 注 意 一 些 在 工程 端口 中 没有 使 用 的 连接 ， 实 际 上 在 图 1. 29 中 已 经 使 
用 过 了 (如 虚拟 LED2 总 是 OFF ， 因 为 它 接地 ) 。 
Adept 软件 通过 其 他 选项 提供 支持 原型 机 板 与 主机 的 互 连 咏 ,1 。 
第 1 章 选择 的 电路 原理 图 设计 入 口 仅 提供 基于 FPGA 电路 的 介绍 ， 而 没有 描述 
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许多 通常 要 求 的 增补 话题 。 电 路 原理 图 的 框图 能 力 是 有 限 的 。 所 有 使 用 的 器 件 ， 包 
括 来 自 LogiCore 的 ， 都 可 以 用 HDL 描述 ， 以 一 种 更 紧凑 上 且 易 理解 的 形式 描述 。 层 
次 设计 应 用 也 与 之 类 似 。 编 辑 HDL 文件 更 简单 ， 语 言 让 工作 既 有 结构 (电路 原理 


图 编辑 使 用 的 形式 ) ， 又 有 行为 ， 而 且 混 合 


行为 加 结构 ) 规范 。 并 且 ，HDL 和 电 


路 原理 图 框图 可 在 相同 的 工程 中 组 合 (如果 要 求 的话 ) 。 下 一 章 将 简要 介绍 VHDL, 
在 随后 的 章节 中 会 用 VHDL 描述 所 有 的 电路 和 系统 。 
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ats WO A MES 
基于 FPGA 器 件 的 综合 VHDL 


摘要 一 一 本 章 简要 介绍 综合 VHDL，VHDL 是 有 效 的 设计 工具 ， 在 没有 很 多 背 
景 知识 的 情况 下 ，VHDL 有 助 于 理解 随后 章节 的 例子 。 本 章 的 主要 对 象 是 解释 
VHDL 模块 的 基础 及 其 规范 的 能 力 ， 并 不 进行 详细 介绍 。 有 几 本 很 好 的 关于 VHDL 
的 书 ， 有 助 于 完成 本 书 的 学 习 。 我 们 最 初 的 对 象 是 基于 FPGA 的 电路 和 系统 的 综合 
和 优化 ，VHDL 是 本 书 使 用 的 描述 理想 功能 和 结构 的 工具 。 因 此 ， 学 习 本 章 就 可 以 
在 不 阅读 其 他 材料 的 情况 下 理解 接 下 来 章节 的 内 容 ， 理 解 所 有 提出 的 基于 FPGA 的 
原型 机 板 测试 的 电路 。 


2.1 介绍 VHDL 


美国 政府 在 20 世纪 80 年 代 的 赞助 计划 创建 了 VHSIC (Very High Speed Inte- 
grated Circuits Hardware Description Language ( VHDL) L1] ”这 个 语言 在 1987 年 实行 
标准 化 (1993 年 、2002 年 、2008 年 各 完成 一 个 版 本 )， 并 广泛 获得 设计 者 们 的 
认可 。 

本 节 的 对 象 是 通过 一 些 简单 例子 来 简要 介绍 VHDL。 主 要 目的 是 介绍 本 书 中 将 
用 于 FPGA 工程 的 结构 。VHDL 是 一 门 复杂 的 语言 ， 具 有 广泛 的 规则 ， 且 不 是 所 有 
的 VHDL 都 是 可 综合 的 。 本 章 后 面 的 小 节 将 介绍 FPGA 设计 中 使 用 的 VHDL 基础 知 
识 。 本 章 参 考 文献 [1, 2] ER TRAYI VHDL 语言 的 书 。 

VHDL 语言 编写 的 数字 电路 的 规范 包括 两 个 主要 部 分 ， 即 定义 电路 接口 (声明 
外 部 电路 连接 器 ) 的 实体 声明 和 描述 内 部 功能 的 结构 体 。 有 三 种 结构 体 ， 即 结构 
级 、 行 为 级 和 混合 级 。 

结构 级 结构 体 提供 所 有 必要 的 介 于 库 原 语 或 已 完成 的 电路 之 间 的 内 部 连接 。 图 
2.1 所 示 为 一 个 电路 的 结构 级 VHDL 描述 ， 这 个 电路 开始 是 作为 图 1.2 所 示 电 路 原 
理 图 的 人 口 。 

VHDL 代码 的 前 两 行 确定 标准 库 IEEE 和 包 std _ logic _1164， 这 对 规范 是 很 重 
要 的 定义 。 特 别 是 ， 我 们 使 用 std _ logic 类 型 和 包 中 定义 的 相关 操作 。std _ logic 类 
型 有 9 个 值 (“U” 一 未 初始 化 ,“X” 一 未 知 ,“0” 一 0,“1” 一 1 “2” 一 高 阻 
抗 ,，“W” 一 弱 未 知 ,“L” 一 弱 0,“H” 一 弱 1,“ 一 ”一 不 关心 ) ， 这 使 得 信和 号 可 
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library ieee; 
use ieee.std logic 1164.all; 


库 和 包 





library UNISIM; 
use UNISIM.Vcomponents.all; 


entity StructuralVHDL is 


y port ( x1,x2,x3 :in std logic; x 
"Eu. :out std logic ); 一 实体 





y 
[a end StructuralVHDL; 
N 
N architecture BEHAVIORAL of StructuralVHDL is 
\ \ signal out_and? : std logic; 
m ce NN X. signal out and2 : std. logic; 
M. NEN b signal out and3 : std. logic; 
NET"x1" - Loc="A10"; "NN beg 
NET"xX2"  LOC-"D14"; s 
NET "x3" LOC = "C14"; port map (I0-»out, and1, 11=>out_and2, 
NET "y" LOC = "U18"; I12-»out and3, O=>y); 















N IN and1 circuit : AND3B2 
S = = = = ; 
pin Us FPGA® RS port map (l0=>x3, |1=>x2, 12=>x1, O=>out_and1); 
~ c x: E 
xix < < < me and2 circuit : AND3B2 
Say rS \\ LL port map (10-33, 11=>x1, 12=>x2, O=>out_and2); 
u. [T8 u. u XN 
o a o a < and3 circuit : AND3B2 
SCA ch. cC^E£^E x s = ; 
& ^ &1 & f 号 个 & 个 port map (I0=>x1, 11=>x2, 12=>x3, O=>out_and3); 
"s X A X o end BEHAVIORAL; 结构 体 


图 2.1 图 1.2 中 的 电路 的 结构 VHDL 


改变 为 强 、 弱 或 高 阻抗 。 目 前 ， 我 们 只 需要 九 个 值 中 的 两 个 值 ， 即 “0” 和 “17 
(引号 表示 其 逻辑 值 ， 区 别 于 数字 0 和 1)。VHDL 不 是 敏感 语言 ， 应 区 分 大 小 写 。 
这 也 是 为 什么 我 们 使 用 STD _ LOGIC 命名 ， 而 不 使 用 std _ logic。 

VHDL 代码 的 接 下 来 两 行 确定 库 UNISIM. vcomponents ( 带 有 vcomponents £2) , 
具有 Xilinx 原 语 的 器 件 声明 ， 并 定义 了 仿真 需要 的 模型 。 

从 图 2. 1 中 可 看 出 ，VHDL 代码 具有 三 部 分 : 

(1) 库 和 包 的 说 明 ; 

(2) 接口 (实体 ) 的 说 明 ; 

(3) 结构 体 的 说 明 。 

器 件 OR3 和 AND3B2 是 Xilinx 库 原 语 ， 它 们 对 应 于 图 1. 2 中 相关 电路 的 原理 
图 符号 。 声 明 的 内 部 信号 out _andl 、out and2 和 out _ and3 用 于 描述 库 原 语 之 间 
的 内 部 连接 ( 原 语 AND3B2 的 例子 有 三 个 ， 即 andl circuit, and2 circuit, and3 _ 
circuit， 一 个 原 语 OR3 的 例子 ， 即 or _ circuit)。 连 接 通 过 逗号 表示 ， 限 制 在 port 
map 关键 字 后 面 ， 例 如 port map (10 = >x3, Il = » 32, R= >xl, O= >out_ 
andl), #4} AND3B2 在 UNISIM JÆ (文件 unisim VCOMP. vhd) 中 定义 如 下 : 


component AND3B3 
port (O :out std ulogic;  --std ulogic is unresolved type [I] similar to std logic 
10,11, 12 :in ^ std_ulogic); 
end component; 
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VHDL 关键 字 signal 使 信号 在 结构 体 声明 部 分 声明 〈 在 开头 architecture 和 关键 
^ begin 之 间 ) 。VHDL 的 信号 类 似 于 硬件 电路 的 线 。 

本 书 程序 中 的 关键 字 (保留 字 ) 用 黑体 表示 。 在 VHDL 中 ， 两 个 连续 短线 
(-) 表示 单行 注释 ， 它 们 也 用 黑体 表示 。 每 个 接口 都 有 一 个 命名 (如 0，I0, H, 
D), 且 是 输入 (in) 或 输出 (out)。 其 他 类 型 (BI inout 和 buffer) 也 是 允许 的 ， 
见 附录 A。 对 于 每 个 接口 ， 我 们 确定 其 类 型 和 该 端口 值 的 范围 。 上 述 例子 中 ， 每 个 
接口 都 是 std _ ulogic 类 型 。 请 注意 每 个 接口 的 说 明 后 面 是 分 号 〈 除 最 后 一 个 接 
口 ) std  ulogic 类 型 的 信号 类 似 于 std _ logice， 但 其 不 包含 提前 定义 的 分 辨 函数 
(细节 可 在 本 章 参考 文献 [1, 3] 找到 ) 。 在 器 件 声明 中 的 接口 信号 命名 O, 10, 
Il, 12 出 现在 映射 栏 : port map (10 = > x3, Il = >x2, R= >xl, O= >out _ 
andl ) 。 后 者 为 命名 连接 ， 即 每 个 器 件 接口 了 0, 1, 2, O ( 见 上 述 器 件 AND3B3 ) 
连接 信号 x3, x2, x1 和 out _andl ， 这 些 信 号 来 自 使 用 该 器 件 的 实体 〈 见 图 2.1 中 
的 StructuralVHDL 实体 ) 。 内 部 信号 (在 实体 Structural VHDL 中 用 于 连接 ) 明确 声 
明 为 


signal out_and1 : std logic; -- signal and component declarations appear in the declarative 
signal out_and2 : std_logic; -- part of architecture which is between the keywords 
signal out_and3 : std_logic; -- architecture...of...is and begin (see example in Fig. 2.1) 


除了 命名 连接 ， 还 可 以 使 用 位 置 连接 ， 位 置 连接 是 下 面 例子 使 用 的 结构 说 明 ， 
也 可 见 附 录 A 

行为 级 结构 体 抽象 地 代表 了 电路 的 理想 功能 ， 类 似 于 一 般 的 编程 语言 。 但 是 ， 
VHDL 语言 在 很 多 方面 都 区 别 于 一 般 的 编程 语言 ， 主 要 是 因为 硬件 描述 语言 固有 的 
并 发 性 以 及 可 操作 单位 和 多 位 的 高 级 运算 操作 。 

对 于 上 面 提 及 的 结构 级 结构 体 ， 相 等 的 行为 级 说 明 如 下 : 

library ieee; -- note that the UNISIM library is not needed now 

use ieee.std_logic_1164.all; 


entity BehavioralVHDL is — -- the entity name (such as BehavioralVHDL) is chosen by the designer 
port (x1, x2, x3 :in std logic; 

y :out std logic); 

end BehavioralVHDL; 


architecture behavioral of BehavioralVHDL is 
begin -- and/not/or are VHDL logical operators for AND/NOT/OR logical operations 
y <= (x1and not x2 and not x3) or (not x1 and x2 and not x3) or 
(not x1 and not x2 and x3); -- <= is VHDL signal assignment operator 
end behavioral; 


综合 电路 的 功能 实质 上 是 一 样 的 ， 即 结构 级 和 行为 级 规范 相互 补充 ， 对 不 同 工 


程 有 不 同 效 果 。 因 此 ， 在 混合 级 结构 体 中 组 合 它们 是 合理 的 ， 混 合 级 结构 体 组 合 了 
行为 和 结构 规范 。 在 复杂 工程 中 ， 这 样 的 混合 级 结构 体 是 最 常用 的 。 


© 基于 FPGA 的 系统 优化 与 综合 $5 


图 2. 2 所 示 VHDL 模块 器 件 简化 结构 (VHDL 语言 写 的 设计 人 口 ) 足够 用 于 介 
绍 VHDL。 








sige ia ala 连接 的 器 件 是 库 原 语 或 提前 设计 的 电路 ， 来 自 
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begin 
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2.2 VHDL 模块 器 件 的 简化 结构 


目前 为 止 ， 图 2. 2 中 如 下 关键 字 还 没有 介绍 过 : 

(1) generic 描述 紧凑 扩展 和 参数 设计 (细节 见 2.5 节 和 附录 和 A) ; 

(2) constant 声明 党 数值 (细节 见 2.2 节 和 附录 A); 

(3) type 声明 新 类 型 包括 阵列 和 枚 举 ; 

(4) function 和 procedure ( 子 过 程 ) 让 具有 一 定 功 能 的 代码 在 设计 中 多 次 使 用 
(细节 见 2.4 节 和 附录 A); 

(5) shared variable 是 variable 的 扩展 形式 ， 人 允许 进程 之 间 的 通信 ， 注 意 在 结构 
中 不 能 直接 声明 变量 ,变量 只 能 在 进程 或 子 过 程 中 声明 (function 或 者 procedure) , 
变量 赋值 用 : = operator; 

(6) process 是 并 发 执行 语句 〈 见 2.3 节 和 附录 A)。 

本 章 后 面 的 内 容 将 涉及 上 面 提 及 的 和 其 他 的 VHDL 关键 字 (RAF) 的 细节 。 
附录 A 中 总 结 了 保留 字 的 使 用 规则 。 

下 面 的 代码 例证 了 行为 级 VHDL 说 明 ， 是 在 1.5 节 讨 论 过 的 半 加 器 。 半 加 器 的 
外 部 接口 和 真 值 表 如 图 2. 3 所 示 。 


E 第 2 章 BF FPGA 器 件 的 综合 VHDL 2 








library IEEE; 
© use IEEE.std logic 1164.all; E 用 库 和 包 


entity half_adder is 







port( A : in STD LOGIC; ———^ |^ carry. out 
- B : InSTD_LOGIC; — |e om sum 
m ©) carry out : out STD_LOGIC; ai 
sum : out STD LOGIO); 
end half adder; 
LIEIKCZETINCTE 
architecture half adder behavior of half adder is 0 0 0 v9 
E m 0 1 0 1 
: - AxorB; 
àE sum < xor 1 0 0 1 
carry out <= A and B; 
end half. adder. behavior; Pal p 
图 2.3 VHDL 说 明和 半 加 器 的 真 值 表 
library IEEE; 


use IEEE.std logic 1164.all; 
entity half adder is 


port (A : in std logic; 
B :in std logic; 
carry out : out std logic; 
sum :outstd logic); -- there is no semicolon following the specification 
end half. adder; -- of the last port 
architecture half_adder_behavior of half_adder is 
begin 
sum <= A xor B; -- xor is a VHDL keyword for XOR logical operation 
carry_out <= A and B; -- and is a VHDL keyword for AND logical operation 


end half_adder_behavior; 


半 加 器 的 每 个 接口 都 有 命名 (A，B，carry _out，sum) 。 结 构 体 名 为 half _ ad- 
der _ behavioral, XH% half adder 入口。 这 些 命 名 可 随意 选择 ,但 必须 遵守 VHDL 
的 语法 规则 ， 即 用 户 自 定义 只 能 有 字母 、 数 字 和 下 划 线 ， 必 须 以 字母 开头 ， 不 能 有 
两 个 连续 下 划 线 ， 末 尾 不 能 有 下 划 线 。 

下 面 的 例子 是 混合 级 VHDL 规范 ， 是 由 两 个 结构 级 器 件 〈 半 加 器 ) 和 一 个 2 
输入 OR 门 的 行为 级 结构 体 组 成 的 全 加 器 cary_out <= s2 or S3; ( 见 图 1.19b) 。 
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library IEEE; 
use IEEE.std_logic_1164.all; 


entity FULLADD is 


port ( A, B, carry in :in std logic; 
sum, carry out — :outstd logic ); 
end FULLADD; 


architecture STRUCT of FULLADD is 
signal s1, s2, s3 : std logic; 


component half adder 
port(A,B :in std logic; 

carry out,sum — :outstd logic); 

end component; 

begin 
u1: half adder port map(A, B, s2, s1); 
U2: half adder port map(s1, carry. in, s3, sum); 
carry out <= s2 or s3; 

end STRUCT; 


The Component half _ adder is described explicitly using the VHDL keyword compo- 
nent. If we comment the lines: 


component half adder 
port( A,B :in std logic; 
carry. out, sum : out std logic); 
end component; 


出 现 如 下 错误 : «half adder >is not declared, (Ht, AA Eri HY VHDL 模块 


都 编译 到 work 库 中 ， 所 以 可 通过 以 下 方式 直接 在 work 库 中 使 用 half _ adder 器 件 : 


architecture STRUCT of FULLADD is 
signal s1, s2, s3 : std logic; 
begin -- getting the hal adder from the library work in the construction: entity work.half_adder 


u1: entity work.half adder port map(A, B, s2, s1); 
u2: entity work.half adder port map(s1, carry. in, s3, sum); 
carry. out <= s2 or s3; 

end STRUCT; 


现在 代码 没有 报错 ， 产 生 的 电路 功能 和 图 T. 19b 中 的 电路 一 样 。 器 件 通 过 外 部 
(A, B, carry in, sum, carry out) 和 内 部 (s1，s2，s3) 信和 号 连接 ， 这 里 采用 
的 是 位 置 连接 。 例 如 ， 半 加 器 有 四 个 接口 A，B，sum，carry _out。 在 器 件 ul tF, 
外 部 信号 A，B 和 内 部 信号 sl, ，s2 对 应 连接 。 在 器 件 u2 中 ,sl (内 部 信号 ) 连接 
carry in (外 部 信号 ) s3 (内 部 信和 号) 连接 sum (外 部 信号 ) 。 从 图 2. 4 中 应 该 能 
理解 其 他 细节 (也 可 见 附录 A) o 

上 面 的 例子 采用 的 是 结构 级 、 行 为 级 和 混合 级 VHDL 规范 的 一 般 结构 。 在 下 
一 节 将 列举 关于 不 同 VHDL 结构 细节 的 例子 , 重点 在 于 理解 可 以 直接 综合 、 执 行 
并 在 FPGA 电路 中 测试 的 例子 。 本 书 有 两 个 附录 (附录 A 和 附录 B)， 附 录 A 为 可 
综合 Qi ie VHDL 关键 字 。 附 录 B 为 常用 模块 的 代码 举例 。 

总 结 2.1 节 ， 首 先 明确 指出 本 书 不 是 关于 VHDL 的 ， 只 是 介绍 了 基本 的 
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library IEEE; | | library IEEE; 
use IEEE.std logic 1164.all; use IEEE.std logic 1164.all; 
entity FULLADD is entity half adder is 
port( A,B, carry in in std logic; pH 
sum, carry. out out std logic ); EE ae :in STD_LOGIC; 
end FULLADD; Ra :in STD LOGIC; 
architecture STRUCT of FULLADD is f Cam ou: out STD_LOGIC; 
signal 51, 52, s3 : std_logic; A 2» out STD_LOGIC jJ; 
in M “end half adder; 
ul: — half. ———— 2 | architecture half adder behavior of half adder is 
map(A, B, s2; s1); begin 
u2: RS half adder sum <= A xor B; 
port map(s1, carry in, s3, sum); carry out «- A and B; 
carry out «- s2 or s3; | end half adder behavior; 











end STRUCT; 





B half. adder 


s2 


u2 
half. adder 


[carry. out] 


— [sum] 











图 2.4 结构 体 VHDL 描述 全 加 器 


VHDL， 足 够 用 来 描述 对 象 FPGA 电路 和 系统 。 本 书 的 局 限 性 如 下 : 

(1) 只 使 用 了 std. logic 类 型 中 的 两 个 值 “0” 和 “1”。 

(2) 本 书 的 例子 主要 使 用 的 是 值 为 “0” 和 “1” 的 无 符号 向 量 ， 类 型 声明 是 
std_logic _ vector。 只 有 少数 的 例子 使 用 的 是 有 符号 (signed) 和 无 符号 (un- 
signed) 类 型 ( 见 2.2 节 和 附录 )。 

(3) 考虑 到 假设 1 和 2， 在 下 述 的 许多 例子 中 ，std logie vector 类 型 的 使 用 
[F] unsigned 类 型 ， 尽管 后 者 可 能 更 正确 ， 例 如， 对 于 比较 、 算 术 和 一 些 其 他 操作 。 

be s 结果 (综合 和 实施 ) 电路 产生 任何 问题 ， 而 且 可 以 使 转 
换 函 数 最 小 化 。 这 是 因为 我 们 主要 关注 设计 方法 和 电路 描述 ， 而 不 是 通常 使 代码 更 
Satta, 

(4) 本 书 中 涉及 的 许多 设计 方法 同样 适用 于 有 符号 向 量 ， 假 定 已 经 很 好 地 理 

解 并 测试 过 给 定 的 例子 ， 则 要 求 的 必要 (最 微小 的 ) 改变 可 以 轻松 做 到 。 


2.2 数据 类 型 、 对 象 和 操作 数 


我 们 考虑 VHDL 的 基本 数据 类 型 : Denumerated (包括 先前 定义 和 用 户 定义 
W); bit vector; integer; record, 

先前 定义 的 enumerated 类 型 是 : (Dbit ( 值 “0” 和 “1”); (boolean ( fij false 
Fl true); (BIEEE std logic 1164 fie LEV) std logic (ffi “U” “X” “o” “1” 
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“2”“W”“L”“H”“”， 前 面 描述 过 的 )。 

用 户 定 义 的 enumerated 类 型 经 常用 于 命名 有 限 状 态 机 的 状态 ， 例 如 : 

type FSM_states is (begin, run, end); -- begin, run, end are user-defined names of FSM states 

bit vector 是 每 个 元 素 为 位 类 型 的 标准 位 向 量 ， 或 定义 在 IEEE std _ logic _ 1164 
包 std _ logic vector 中 ， 元 素 为 std _ logic AY, std _ logic 和 std _ logic _ vector 是 
本 书 最 常用 的 类 型 。 给 出 两 个 例子 如 下 : 


signal sw t std logic vector(3 downto 0); 
signal my bit. : bit vector(2 to 3); 


第 一 个 例子 声明 一 个 向 量 sw，sw 有 4 个 元 素 sw(3), sw(2), sw(1), sw(0)。 
例如 ， 如 果 sw < =“1100”, 则 sw(3) =“1", sw(2) 2"1", sw(1) = “0”, sw(0) = 
“0”。 如 果 在 第 二 个 例子 中 ，my _bit< = “01”, 则 my bit(2) 2 "0", my bit 
(3) =“1”。 在 单 引 号 之 间 写 入 单个 位 的 值 ， 而 在 双 引 号 之 间 写 人 多 个 位 的 值 。 

Integer 类 型 声明 整数 ， 整 数 的 值 域 可 以 明确 定义 ,例如 : 

signal my int : integer range 3 to 8; -- allowed values now are only 3, 4, 5, 6, 7, and 8 

record 类 型 让 不 同类 型 的 数 集 组 合 到 一 个 已 命名 的 结构 中 ， 例 如 : 


type user defined record is record -- the name of the structure is user. defined. record 


data1 : std_logic_vector(7 downto 0); -- record fields 
data2 : integer range 0 to 7; -- a field can also be of type record 
end record; 


数据 类 型 可 以 形成 阵列 。 尽 管 可 以 选择 任何 维 数 ， 但 是 通常 要 求 限制 维 数 。 例 
如 ， 本 章 参考 文献 [3] 中 维 数 限制 为 3。 如 下 的 类 型 声明 一 个 阵列 ， 名 为 my ar- 
ray, A 16 个 整数 ， 值 可 能 为 0，1，2，3，4; 

type my_array is array (0 to 15) of integer range 0 to 4; 

如 下 代码 声明 有 四 个 整数 集 的 二 维 阵列 : 

type my_table is array (3 downto 0) of my_array; -- the type my_array is declared above 

在 这 里 ， 我 们 考虑 三 个 VHDL 对 象 ， 即 信号 (signal), 、 变 量 (variable) 、 常 量 
(constant ) 。 

信和 号 在 结构 〈 见 图 2. 2 中 ， 介 于 行 architecture…… 和 begin 之 间 ) 声明 部 分 用 
关键 字 signal 声明 ， 并 在 该 结构 中 使 用 。 

变量 在 进程 或 子 过 程 〈 函数 或 过 程 ) 声明 部 分 用 关键 字 variable 声明 ， 并 在 该 
进程 或 子 过 程 中 使 用 。 

常量 在 结构 、 进 程 、 子 过 程 ( 函数 或 过 程 ) 声明 部 分 用 关键 字 constant 声明 。 
进程 、 函 数 或 者 过 程 声 明 部 分 介 于 行 process». / function / procedure: :*- 和 be- 
gin 之 间 。 

一 个 完整 实例 如 下 : 
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library IEEE; — -- in future VHDL modules we will assume including these libraries 

use IEEE.STD LOGIC 1164.all; 

use IEEE.STD LOGIC ARITH.all; ~ see also appendix A and section 2.6 
use IEEE.STD LOGIC. UNSIGNED all; -- for conversion functions 


entity types and objects is -- sw and led are signals from switches and to LEDs 
port (sw : in std logic vector(3 downto 0); 
led : outstd logic vector(7 downto 1)); 
end types and objects; 


architecture Behavioral of types and objects is 
type my array is array (0 to 15) of integer range 0 to 4; 
constant Hamming weight : my array := (0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4); 
signal index : integer range 0 to 15; 


begin 
led(4 downto 1) <= SW; 
index <= conv. integer(sw(3 downto 0)); 
led(7 downto 5) <= conv. std logic vector(Hamming. weight(index), 3); 


end Behavioral; 


XE, conv integer ( std _ logic _ vector 类 型 改 为 integer 类 型 ) 和 conv _ std 
logie vector ( integer 类 型 改 为 std _ logic _ vector, std _ logic _ vector 大 小 为 n， 
其 中 n 是 第 二 个 变量 ) 是 转换 函数 ， 为 了 使 用 转换 函数 ， 需 要 增加 上 述 代 码 指明 
的 包 。 如 下 行 : 

constant Hamming_weight : my_array := (0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4): 

声明 和 初始 化 常量 Hamming _weight， 是 一 维 整数 阵列 。 具 有 索引 io 的 每 个 整 
数 都 是 2 的 汉 明 权重 ， 即 二 进 制 向 量 2 中 值 “1” 的 数量 。 而 且 ， 如 果 io =5， 则 
my array (5) =2, i, =“0101” 有 两 个 数字 “1”。 这 个 一 维 阵列 在 这 行 中 声明 
了 新 的 type my _aray， 即 type my array is array (0 to 15) o£ integer range 0 to 4;。 
图 2. 5 所 示 为 工程 和 工程 功能 使 用 的 用 户 约束 文件 (User Constraints File, UCF), 

在 后 面 的 VHDL 模块 中 ,我 们 将 使 用 下 面 衍生 的 数据 类 型 (也 在 附录 A 中 描 
述 ) : 

(1) natural 声明 非 负 整数 (0，1，2，…) ; 

(2) positive 声明 正 整 数 (1，2，…) ; 

(3) unsigned 声明 基于 std logic 类 型 的 无 符号 向 量 ， 例 如 , 在 VHDL 包 std _ 
logic _ arith 中 ( 见 2.6 节 ); ` 

(4) signed 声明 基于 std _ logic 类 型 的 有 符号 向 量 ， 例 如 , Æ VHDL 4 std _ 
logic _ arith 中 ( 见 2.6 节 ); 

(5) character 是 7 位 ASCII 码 ; 

(6) string (positive) 是 字符 阵列 。 
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NET "led«1»" LOC = "M14"; 
NET "led«2»" LOC = "N14"; 
NET "led«3»" LOC = "L14"; 
NET "led«4»" LOC = "M13"; 
NET "led«5»" LOC = "D4"; 
NET "led«6»" LOC = "P16"; 
NET "led<7>" LOC = "N12"; 
sw(0) | NET “sw<0>" LOC = "A10"; 

| NET "sw«1»" LOC = "D14"; 
NUUS RSEN te a 2C | NET "sw«2»" LOC - "C14"; 





if z " | 
sw : instd logic vector(3 downto 0); ! NET “sw<3>" LOC = "P15"; 


人 ——————————— d 


图 2.5  Altys 板 集 的 UCF 和 具有 实体 types _ and _ objects 的 工程 功能 


如 下 两 行 代码 给 出 了 声明 字符 和 字符 串 的 实例 : 


signal my string : string(1 to 3); -- declaration of signal my string of type string(1 to 3) 


signal my char : character; ^ -- declaration of signal my. char of type character 
接 下 来 的 几 行 代码 是 在 结构 体 中 完成 赋值 的 实例 : 

my_char <= 3 -- my char receives the ASCII code of digit 3 
my_string(1) <= '5'; -- my string(1) receives the ASCII code of digit 5 
my. string(2) <= by char; -- my_string(2) receives the value of my_char 
my_string(3) <= '9'; -- my_string(3) receives the ASCII code of digit 9 


led <= std_logic_vector(conv_unsigned(character'pos(my_char), 8)); 


最 后 一 行 代 码 在 ASCH 中 找到 my _ char 的 位 置 ( character’ pos (my _ char) ), 
然后 变换 这 个 位 置 给 一 个 std _ logic 的 8 元 素 无 符号 向 量 (conv unsigned ( < posi- 
tion > ，8) ) ， 最 后 将 这 个 无 符号 向 量变 换 给 std _ logic _ vecter (std _ logic _ vecter 
( «unsigned vector > ) ) ， 假 定 用 八 个 LED 显示 。 

下 面 的 操作 将 在 本 书 中 的 例子 中 使 用 : 

(1) SER: + (加 )，- OR), * (R), / CHO, ， 通 常 ， 只 有 当 右边 的 操 
作 数 为 2 的 宕 数 时 才 支 持 除法 ; 

(2) WE: < = (用 于 信号 ),: = (用 于 变量 ); 

(3) FFB: &; 

(4) 逻辑 : and, nand, nor, not, or, xor, xnor ( 见 附录 A); 

(5) 关系 ; = (SET) Z8 CRSP), < OF), <= TFT), > 
(KF), >= (大 于 等 于 ); 

(6) 移 位 : sll (BHA), srl CHAR), sla (GRAB), sra (RA 
移 ) rol (逻辑 循环 左 移 ) ，ror (逻辑 循环 右 移 ) ， 相 关 例 子 和 补充 解释 见 附录 A, 
通常 使 用 逻辑 等 价 操作 〈 见 附录 A 中 的 移 位 操作 ); 

(7) 其 他 : abs ( 取 绝 对 值 ) rem (WR), mod (ERE), s (FCAT). i 
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常 ， 只 有 在 右边 的 操作 数 是 一 个 常数 且 是 2 ORRIN, ASF rem 和 mod 操作 5 。 
大 多 数 操作 数 的 使 用 已 经 清楚 了 。 下 面 是 第 一 个 VHDL 模块 ， 我 们 将 讲解 其 
中 的 一 部 分 。 
entity abs rem mod is -- the project was tested in the ISE 14.7 and Atlys board 
port ( sw : in std_logic_vector(7 downto 0); 


led : out std_logic_vector(7 downto 0); 
BTNU, BTNC, BTND, BTNL, BTNR  :in std logic); -- onboard buttons in the Atlys 
end abs rem mod; 
architecture Behavioral of abs rem mod is 
signal result : integer range 0 to 16; 
signal but — :std logic vector(4 downto 0); 
begin 
but <= BTNU & BTNC & BTND & BTNL & BTNR; — - concatenation of five signals 
result <= 16 when conv integer(sw(3 downto 0)) = 0 else - 16 indicates "divide by 0" 
conv integer(sw(7 downto 4)) mod conv integer(sw(3 downto 0)) 
when but = "00001" else -- only BINR is pressed 
conv integer(sw(7 downto 4)) rem conv integer(sw(3 downto 0)) 
when but = "00010" else -- only BTNL is pressed 
conv integer(sw(7 downto 4)) / conv integer(sw(3 downto 0)) 
when but - "00100" else -- only BIND is pressed 
abs(-10) when but = "01000" else — -- abs(-10) = 10 (only BTNC is pressed) 
abs(5) when but = "10000" else 0; — -- abs(5) = 5 (only BTNU is pressed 
led «7 conv std logic vector(result, 8); 
end Behavioral; 


这 里 引入 的 when…else 是 条 件 信 号 赋值 语句 ， 可 以 在 简洁 的 代码 中 描述 更 多 
的 操作 数 。 条 件 赋值 的 一 般 格式 如 下 : 


<name> <= «expression» when «condition» else «expression»; 


可 以 重复 无 数 次 。 例 如 ， 如 果 只 有 but = “00001”， 则 执行 mod 操作 ， 即 只 按 
下 BTNR 按钮 m H, 信号 bt 是 五 个 按钮 信号 的 并 置 (&) 
(BTNU&BTNC&BTND&BTNL&BTNR ) 。 有 些 操作 在 上 面 的 注释 中 已 经 解释 过 ， 其 
他 见 表 2. 1。 例 如 ， 使 用 取 模 〈A mod B) 运算 改变 结果 ,从 A=0 到 B-1， 然 后 
再 从 0 到 B-1， 直 到 遍历 完 所 有 A 的 值 (上 述 操作 的 明确 定义 见 本 章 参 考 文献 
[1]). A2. 1 中 可 知 ， 对 于 任何 整 型 操作 数 ， 除 (/) 和 求 余 (rem) 在 Xilinx 
ISE 14.7 运行 中 都 给 出 了 正确 结果 (本章 参考 文献 [3] 指出 ， 这 两 个 操作 都 只 支 
持 当 第 二 个 操作 数 为 2 的 需 数 或 所 有 的 操作 数 都 是 常数 时 的 运算 ) 。 表 2.1 中 带 * 
号 的 操作 (mod * , rem , /*) 适用 于 第 一 个 操作 数 为 正 数 且 第 二 个 操作 数 为 负 
数 的 声明 。 

conv_integer(sw(7 downto 4)) mod (-conv_integer(sw(3 downto 0))) 


conv_integer(sw(7 downto 4)) rem (-conv_integer(sw(3 downto 0))) 
conv_integer(sw(7 downto 4)) / (-conv_integer(sw(3 downto 0))) 
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32.1 mod, rem 和 除 (/) 操作 的 结果 





A=sw (7:4) B=sw (3:0) Mod mod * rem (rem* ) At 
0000, (Ojo) mod, rem, /: (00005) O19 (00000, ) 049 (00005) Ojo 0 (0) 
00015 (lio) 0101, (5,5) (00015) lj; (11100) -4 (00015) lj 0 (0) 
00105 (2,5) (00105) 219 (11101,) -3y9 (0010, ) Zig 0 (0) 
0011, (319)  mod*, rem* , /* (0011,) 3i (11110,) =210 (0011,) 349 0 (0) 
0100, (419) ( 7-549) (01005) 4, (11111) -lio (01005) 419 0 (0) 
0101, (549) 即 符号 被 (0000,) 0。 (00000,) Op (0000,) Oi i4 -1) 
强制 改变 
0110, (649) (00015) lio (11100,) -4o (00015) lio Pea 
011l; (745) (0010, ) 249 (11101,) -3io (0010, ) Zio I (-) 
1000, (81) (00115) 349 (11110, ) -210 (00115) 349 t ¢=25 
1001, (9,5) (01005) 419 (11111;) -1o (0100,) 4, T (+ 
1010, (10,5) (0000, ) Oio (00000, ) Oio (0000,) O19 2 (-2) 
1011, (ll) (0001,) Ij — (11100,) -4,y (00013) lj; 2 (-2) 
1100, (1249) (0010;) 24, (11101,) -30 (0010,) 2i 2 (-2) 
1101, (13,9) (0011,) 34  (11110,) -2,, — (0011,) 3) 2 (-2) 
1110, (1449) (0100,) 4,9 — (11111,) -1 — (0100,) 44 2 (-2) 
14115 (155) (0000,) Op  (00000,) O,, (0000;) Oi 3 (23) 


因为 (A mod B) 结果 的 符号 与 B 和 abs (result) «abs (B) —}¥, (A mod 
B) 的 结果 不 同 于 (A mod (- B)), (A rem B) 结果 的 符号 与 A 一 样 ， 因 此 〈A 
rem B) = (Arem (-B))。 显 然 (A/B) # (A/ (-B)). #2.1 (其 中 负数 使 
用 二 进 制 补 码 ， 正 数 取 绝对 值 ) 为 A( 取 不 同 值 ) 和 B ( 取 值 510 和 -510) 运算 
的 例子 。 列 / (/*) 只 有 十 进 制 值 。 更 多 细节 见 附录 A. 


2.3 ”组 合 进程 和 时 序 进程 





VHDL 进程 是 并 行 执行 的 ， 而 进程 内 部 是 使 用 串 行 描述 的 。 本 书 中 ， 我 们 使 用 
具有 敏感 信号 的 进程 ， 敏 感 信号 出 现在 process 关键 字 后 面 的 圆 括 号 内 ( 由 本 章 参 
考 文献 [3] 可 知 这 类 具有 敏感 信号 的 进程 非常 灵活 )。 在 附录 A 中 有 一 些 不 使 用 
敏感 信号 进程 的 例子 ( 见 on 和 until) 。 任 何 敏 感 信 号 的 改变 都 会 激活 该 进程 〈《 即 
假设 这 些 信号 事件 发 生 ) 。 对 于 仿真 对 象 ( 见 2.7 节 ) 使 用 没有 敏感 信号 的 wait 进 
程 (wait 进程 不 允许 使 用 敏感 信号 ) 。 其 他 细节 见 附 录 A。 
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2.3.1 组 合 进程 


每 次 执行 进程 时 ， 如 果 进 程 中 的 所 有 信和 号 /变量 都 贱 有 新 值 ， 则 这 类 进程 是 可 
组 合 的 中 。 因 此 ， 敏 感 信号 必须 包括 : Q@ 条 件 语句 中 的 所 有 信和 号; @@ 所 有 信号 位 
于 赋值 操作 的 右边 ( < = 或 者 : = ) 。 如 果 任 何 值 需要 从 前 面 的 执行 中 存储 ， 则 后 
者 不 能 是 组 合 逻 辑 。 

很 多 VHDL 结构 可 在 进程 中 使 用 。 其 中 一 些 〈 本 书 非 常 需要 ) 将 在 下 面 的 例 
子 中 涉及 。 如 果 输 入 向 量 sw 的 值 介 于 low 带 和 high 带 之 间 (if (sw > low) and 
(sw<high) then led < =sw;) 或 者 小 于 low 带 (elseif sw < low then led < = not 
sw; ) ， 则 测试 如 下 组 合 进程 ; 


entity TestCombProc is — -- simplified syntax rules for processes are given in appendix A 


port ( sw : in | std logic vector(7 downto 0); -- onboard switches 
led : out std logic vector(7 downto 0)); -- onboard LEDs 
end TestCombProc; 


architecture Behavioral of TestCombProc is 
constant low : integer := 5; 
constant high : integer := 10; 
begin 
cp1: process(sw) -- cpl (combinational process |) is an optional label 
begin -- A simplified syntax rule for if.. .elsif...else...end if statement is given in appendix A 
if (sw > low) and (sw < high) then led <= sw; 
elseif sw < low then led <= not sw; 
else led <= (others => '0'); 
end if; 
end process cp1; -- cpl (combinational process |) is an optional label 


end Behavioral; 


如 果 sw 的 值 大 于 low 小 于 high， 则 值 在 LED 显示 。 如 果 sw <low， 则 所 有 sw 
元 素 的 值 取 反 (应 用 not 操作) 并 在 LED 显示 。 和 否则 ， 所 有 的 LED 都 熄灭 。 语 名 
led < = (others = > ‘O’); 使 信号 led 的 值 全 为 “0”( 相 应 的 所 有 LED 都 熄灭 ) 。 
条 件 语句 (第 一 或 第 二 ) 在 结构 体 中 直接 使 用 ， 代 和 替 在 cpl 进程 中 执行 完全 相同 
的 操作 ， 如 下 : 


led <= sw when (sw > low) and (sw < high) else -- the first conditional assignment 
not sw when sw < low else (others =>'0'); ^ -- see also Appendix A 
with conv integer(sw) select -- the second (alternative) conditional assignment 
led <= sw when low+1 to high-1, 
not sw when low-1 downto 0, 
(others => 0) when others; -- see also Appendix A 


于 语句 可 以 用 case 语句 代替 ， 在 下 面 的 cp2 进程 中 ,类似 cpl 进程 的 功能 
WTF: 
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cp2: process(sw) -- A simplified syntax rule for case statement is given in Appendix A 
begin 
case.conv integer(sw) is 
when low*1 to high-1 => led <= sw; 
when low-1 downto 0 => led <= not sw; 
when others => ed <= (others => '0’): 
end case; 
end process cp2; 


接 下 来 的 组 合 进程 cp3 可 以 用 来 找到 sw 的 汉 明 权重 (Hamming Weight, HW) , 
BD sw 中 1 的 数量 。 


cp3: process(sw) -- numerous examples with for statement are given in appendix A 
variable HammingWeightCount : integer range 0 to 8; 


begin 
HammingWeightCount := 0; 
fori in sw'range loop -- HW for sw(7), sw(6), ... , sw(0) 
if sw(i) = '1' then HammingWeghtCount = HammingWeightCount+1; 
end if; 
end loop; 


led <= conv_std_logic_vector(HammingWeightCount,8): 
end process cp3; 


for i in sw'range loop 这 一 行 开 始 循环 组 合 执行 ， 造 成 循环 体 描述 的 逻辑 重复 。 
索引 i 不 用 提前 声明 ， 根 据 向 量 sw 的 范围 自发 增加 (如 7 downto 0 的 时 序 : 7 
5, 4,3, 2，1,，0) 。 除 了 范围 可 以 用 i 表示 外 ， 还 有 其 他 一 些 VHDL 特性 ， 见 附 
录 A。 举 例如 下 : 


for i in swleft downto sw'right+4 loop -- HW for sw(7 downto 4): i.e. for i values 7,6,5,4 
for i in swreverse range loop -- the order of i values is: 0,1,2,3,4,5,6,7 

for i in swlength-4 downto 0 loop -- HW for sw(4 downto 0), because the length is 8 
for i in 5 downto 3 loop -- the order of i values is: 5,4,3 


接 下 来 的 组 合 进程 cp4 为 如 何 使 用 exit 语句 ，exit 语句 让 随后 的 索引 值 在 循环 
中 被 跳 过 ; 
cp4: process(sw) 
variable left 1, right 1 : integer range 0 to 8; 
begin 
left 1:2 8; right 1:7 8; -- the value 8 is chosen to indicate all zeros in the sw 
for i in swrangeloop -- exit as soon as the first "I" from the left is encountered 
if sw(i) = '1' then left 1 := i; exit; 
end if; 
end loop; 
for i in swreverse range loop -- exit as soon as the first "I" from the right is found 
if sw(i) ='1' then right. 1 := i; exit; -- see also exit in Appendix A 
end if; 
end loop; 
led(7 downto 4) <= conv_std_logic_vector(left_1, 4); 
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led(3 downto 0) <= conv_std_logic_vector(right_1, 4); 
end process cp4; 


关键 字 next 使 循环 在 当前 i 值 停止 ， 并 使 循环 以 下 一 个 i 值 继续 。 注 意 ,任何 
具有 特定 索引 值 的 迭代 在 时 序 电 路 中 都 不 是 循环 。 每 次 迭代 在 循环 体 中 复制 逻辑 
值 ， 循 环 体 介 于 loop 和 end loop 之 间 。 循 环 while (在 VHDL 中 同样 适用 ) 功能 类 
似 于 循环 for, ANT ILE A. 

进程 使 用 信号 和 变量 。 信 号 和 变量 区 别 很 大 。 变 量 赋值 (: = ) 为 立即 赋值 
(没有 延 时 ) ， 信 号 赋值 ( < =) 为 在 进程 挂 起 时 赋值 。 进 程 中 的 语句 时 序 执行 
(从 顶部 执行 到 底部 ) 。 如 果 在 进程 中 人 为 重新 赋值 信号 ， 则 信和 号 值 不 会 立即 更 新 。 
例如 ， 如 果 A 和 B 是 整 型 信号 ， 则 初始 化 为 A=10，B =20。 


A<=5; -- initialized before with the value 10 
B <= A; -- initialized before with the value 20 


然后 ， 进 程 结束 时 (单独 调用 ) B=10 (而 不 是 5)， 因 为 上 面 的 A，B 语句 在 
进程 结束 时 间 时 完成 ( 即 进程 挂 起 时 )。 因 此 ，B = 10 (A 的 初 值 )，A =5 (ER 
赋值 语句 A < =5 的 值 ) 。 

在 一 些 实际 应 用 中 要 求 迭 代 调 用 相同 的 语句 ， 例 如 ,语句 A < =A+l 可 以 在 
组 合 进程 中 循环 执行 ， 用 for 或 者 while 语句 。 信 号 A 的 结果 是 显然 错误 的 ， 是 因 
为 DD 信号 A 必须 放 在 进程 的 敏感 信号 中 (因为 它 出 现在 上 面 表 达 式 的 右边 ); QA 
的 任何 改变 (任何 A 事件 发 生 ) 迫使 同一 进程 重新 调用 ; @ 创 建 组 合 循环 ， 在 此 
例 中 这 是 错误 的 ， 因 为 变量 立即 赋值 ， 一 个 类 似 的 进程 使 用 变量 不 会 产生 任何 问 
题 。 且 看 如 下 实例 : 


entity TestLoops is 


port ( led signal : out std logic vector (3 downto 0); 
led variable :out std logic vector (3 downto 0); 
sw :in std_logic_vector(7 downto 0) ); 

end TestLoops; 


architecture Behavioral of TestLoops is 
signal count_sig : integer range 0 to 15; 
begin 
use of signals: process(sw, count sig) —  -- this process gives definitely wrong results 
begin -- warnings in ISE about a combinational loop are displayed 
count sig <= 0; 
optional label: for i in sw'range loop -- DO NOT USE SIGNALS IN SUCH LOOPS 
if(sw(i) = '1') then count sig <= count sig*; -- this is definitely wrong 
end if, 
end loop optional label; 
led signal «7 conv std logic vector(count sig, 4); 
end process use of signals; 


use of variables: process(sw) ^ -- this process gives correct results 
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variable count_var : integer range 0 to 15; 
begin 
count var := 0; 
optional label: fori in sw'range loop ~ this loop is correct 
if(sw(i) = '1') then count_var := count_var+1; -- now this line is correct 
end if; 


end loop optional label; 
led variable <= conv std logic vector(count var, 4); 
end process use of variables; 


end Behavioral; 
很 容易 测试 出 第 一 个 进程 use of signals 产生 错误 结果 ， 第 二 个 进程 use of _ 
variables 产生 正确 结果 。 


2.3.2 ”时序 进程 


如 果 之 前 赋值 的 信号 保持 它们 之 前 的 值 ， 则 该 进程 顺序 执行 ， 因 此 ， p= 
执行 时 不 明确 赋值 。 主 要 考虑 时 钟 边沿 触发 的 时 序 进 程 ， 有 敏感 信号 ， 也 可 能 
有 同步 重 置 ， 描 述 如 下 : 


«optional label:> process(clock)  -- dock is the name of the dock signal 
< optional declarative part> 





begin 
if rising_edge(clock) then -- the same as: if clock'event and clock = "|' then 
<sequential (possibly conditional) statements> 
end if; 


end process <optional label>; 


下 面 的 例子 证 明 时 序 进 程 之 间 的 通信 。 第 一 个 进程 CPI 有 条 件 赋值 语句 (用 
- cx PRW), HEWER (clk) 频率 的 电路 。 


sp1: process(clk) 
begin 
if rising_edge(clk) then internal_clock <= internal_clock+1; end if; 
end process sp1; -- sw is a 3-bit vector (2 downto 0) 
divided_clk <= internal_clock(internal_clock'left - conv_integer(sw)) a 
when falling_edge(clk); - 

下 面 的 声明 必须 在 结构 声明 部 分 完成 : 

signal internal clock :unsigned(how fast downto 0); -- how fast = 30 


signal positive reset — :std logic; -- this signal will be needed in examples below 
signal divided clk : std logic; 


因为 internal clock 是 31 位 无 符号 向 量 (也 可 以 使 用 std _ logic _ vector), JJ 
以 信号 divided _ clk 在 向 量 internal _ clock 中 占 一 位 (internal _ clock'left - conv _ 
integer (sw) ) ， 时 钟 clk 的 频率 由 20-9 + ~convinteger(sw) 划分 。 如 果 conv _ integer 
(sw) =0， 则 Atys 板 的 基 频 (100MHz) H 2°! =2147483648 划分 。 因 此 ，divided 
_elk 的 时 钟 周期 变 为 约 21. 5s。 如 果 conv integer (sw) =7， 则 基 频 由 231-7 = 
16777216 划分 ， 因 此 时 钟 周期 变 为 约 0. 16s, sw 的 值 越 大 ，divided _ clk 提供 的 频 
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率 越 高 〈 较 短 周 期 ) 。 

在 spl 进程 体 中 的 条 件 信 号 赋值 语句 (在 代码 中 用 - - * © 标记 的 ) 可 用 如 
下 代码 代替 : 

if falling_edge(clk) then 


divided_clk <= internal_clock(internal_clock'left - conv_integer(sw)); 
end if; 








The next sequential process sp2 describes functionality of a binary counter: 


sp2: process (divided clk) -- signal count keeps the result of the counter 
begin 
if rising_edge(divided_clk) then -- using divided_ck enables the results to be observed visually 
if positive reset = '1' then count <= (others=>'0’); -- synchronous reset of the counter 
else 


if count enable ='1' then -- increment/decrement of the counter 
if increment='1' then count <= count + 1; 
else count <= count - 1; 
end if; 

end if, 

end if; 
end if; 
end process sp2; 


XE, count enable 是 计数 器 的 使 能 信号 ，increment 选择 加 计数 器 ( incre- 
ment = “1”) 或 减 计数 器 (increment = “0”) 。 
最 后 一 个 时 序 进程 sp3 描述 移 位 寄存 器 的 功能 ， 如 下 : 


sp3: process (divided_clk) -- signal shift keeps the result of the register 
begin -- the size of shift is chosen to be (6 downto 0) 
if rising_edge(divided_clk) then -- using divided dk enables the results to be observed visually 
if positive reset = '1' then shift <= (others=>'0'); -- reset, of the register 
else 
ifload enable = 个 then shift <= count; -- loading the register 
elsif right='1' then -- shift right/left of the register 
shift <= shift(0) & shift(5 downto 1); 
else 
shift <= shift(4 downto 0) & shift(5); 
end if; 
end if; 
end if; 
end process sp3; 


这 里 ，load _ enable 是 寄存 器 使 能 信号 (人 允许 载 人 计数 器 的 计数 值 ) ， 信 号 
right 选择 右 移 (right = “1”) 或 者 左 移 (right= "0"), 
如 下 代码 包含 了 所 有 上 述 描述 的 进程 : 
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entity sequential_processes is -- pins are given below for the Atlys board 
generic (how fast: integer := 30 ); -- generic how fast constant with the default value 30 

port ( clk : in std. logic; ~ dock 100 MHz — — pin LIS 
load enable : in std logic; -- signal from sw(6) — pin T5 
count enable : in std logic; -- signal from sw(7) — pin E4 
increment : in std logic; -- signal from sw(3) — pin PIS 
right : in std logic; -- signal from sw(4) — pin PI2 
count shift : in std logic; ~ signal from sw(5) — pin RS 
sw :in std logic vector(2 downto 0); -- pins C14, D14, AIO 
rst : in std_logic; -- RESET button — pin TIS 
led :outstd logic vector(7 downto 0)); -- see pins in Fig. 2.5 above 


end sequential processes; 
architecture Behavioral of sequential processes is 
signal internal clock — : unsigned(how fast downto 0); 
signal positive reset : std logic; 
signal divided clk :Std logic; 
signal shift, count :std logic vector(5 downto 0); 
begin 
positive reset <= not rst; -- the onboard RESET button for the Atlys produces 0 when pressed 
-- the described above spl process 
-- the described above sp2 process 
-- the described above sp3 process 
led(7 downto 2) <= count when count shift = '1' else shift; -- the results of count or shift 
led(1) <='0'; -- LEDI is set to OFF 
led(0) <= divided clk; -- divided_clk with the selected by sw frequency 
divided_clk<=internal_clock(internal_clock'left-conv_integer(sw)) 
when falling edge(clk); 
end Behavioral; 


图 2. 6 所 示 为 例证 如 何 测试 以 上 工程 的 结果 。 
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54 


E 2G MF FPGA 器 件 的 综合 VHDL e 


在 之 前 已 经 提 过 进程 使 用 的 信号 和 变量 之 间 存 在 显著 不 同 。 图 2.7 所 示 为 其 
他 时 序 进 程 的 例子 ， 模 块 用 1 标记 且 执 行 过 一 次 。 进 程 test _assign 中 有 两 个 信和 号 
A 和 B。 这 些 信号 只 在 进程 挂 起 时 更 新 。 因 此 ， 在 进程 test _assign 的 让 语句 处 ， 
信号 led (1) Filled (0) 赋值 A 和 B 之 前 的 值 ， 而 这 个 结果 可 能 并 不 是 期 望 的 





















那个 值 。 
entity TestCombProc is 不 赋 初 值 结 
port (clk  : in std logic; 1 Lay BAS KT 
BTND : in std_logic; UTR OZ [ E 之 后 载 入 
led : out std logic vector(1 downto 0) := (others=> '0') ); dg d ë 比特 流 

end TestCombProc; ae lp" 
a architecture Behavioral of TestCombProc is 
* signal B : Std logic := 157 
E: signalA  : std logic := '0'; : 
Ei ^ begin 初始 时 ，LEDI 关 闭 .LED 开 启 。 当 
性 lest assign: process(cik) 第 一 次 按 下 BTND 时 ， 值 A 和 B 交 





换 ， 因 此 LEDI 开 启 ，LEDo 关 闭 ， 


TE 因为 现在 B='0” ， 信 号 A 和 B 不 会 

























if rising_edge(cik) then " 
ŽA Ib if BTND ='1' then led <= A & B; 再 交换 T: 
E E = else 
-.B5E & if B ='1' then EN 
He Eg ; gu X 
; A M 
83 Bi 
性 x E led(1) <= A; xm 
Be led(0) <= B; @=05 . if Be'T then. e 
end if; fe TE w 
更 新 使 用 end if, us BTND led(1) <= A; 
的 信和 号 end if, Pin: P3 led(0) <= B; 
énd process test, assign 这 些 语句 只 执行 一 次 ， end if; 
end Behavioral; 当 B 初 始 化 为 1 时 执行 «7 


图 2.7 执行 进程 test assign 的 例子 


if B ='1' then A«-B; B<=A; 
led(1)<=A; —— led(0) «- B; 
end if; 
如 果 使 用 的 是 变量 ， 而 不 是 信号 ， 则 赋值 立即 执行 ， 因 此 led (1) 将 收 到 更 
新 的 A 值 ，led (0) 将 收 到 更 新 的 B 值 。 
总 结 ， ea 进程 的 完整 例子 ， 即 test variable 有 变量 vA; test _ signal - 
(看 着 相似 ) 有 信和 号 


entity TestProc is 


port ( clk : in std logic; 
SW :in std logic vector(3 downto 0); 
led : out std. logic vector(7 downto 0)); 


end TestProc; 


architecture Behavioral of TestProc is 

signal sA :Std logic vector(3 downto 0) := (others =>'0'); 

signal divided clk : std logic; 
begin -- the lines of the test. variable process are similar to the lines of the test. signal process 
test variable: process(divided clk) 

variable vA : std logic vector(3 downto 0) := (others =>'0'); 
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begin -- the functionality of the test variable and the test_signal processes is not the same 
if rising_edge(divided_clk) then 


vA := sw(3 downto 0); -- a new value is assigned without delay 
led(7 downto 4)  «- vA; -- the new value is displayed 
end if; 


end process test variable; 


test signal: process(divided clk) 


begin 
if rising edge(divided clk) then 
sA <= sw(3 downto 0); -- a new value is assigned 
led(3 downto 0) <= sA; -- the new value is delayed until the next activation 
end if; - of the test. signal process 


end process test_signal; 


low freq: entity work.clock_divider 
port map (clk, divided_clk); 


end Behavioral; 

如 果 开 关 sw3, sw2, swl, swO 的 值 改变 ， 则 这 些 改 变 首 先 出 现在 LED7，6， 
5,4 上 ， 且 仅 在 一 个 时 钟 信 号 divided _ clk 周期 之 后 出 现在 LED3，2，1,，0 上 。 这 
个 功能 可 轻松 测试 ， 因 为 时 钟 频 率 被 (clock _ divider) 划分 在 可 见 范围 内 (1Hz 
等 )。 

解释 过 前 面 的 例子 后 发 现在 循环 中 使 用 信和 号 可 能 会 产生 问题 。 例 如 , 在 2.3 节 
中 如 果 进 程 sp3 的 变量 HammingWeightCount 用 信和 号 替代 ， 则 功能 将 异 于 我 们 期 户 
的 那样 (最终 导 致 错误 )。 在 组 合 进 程 中 ,综合 工具 能 识别 许多 这 类 潍 在 的 问题 并 
产生 组 合 循环 警告 。 总 之 ， 时 序 进程 (类 似 上 例 和 图 2.7 中 的 例子 ) 是 在 进程 挂 
起 时 进行 赋值 的 ， 而 不 是 在 进程 执行 时 赋值 。 


2.4 函数 、 进 程 和 模块 


函数 和 进程 用 于 代码 模块 ， 在 设计 中 被 引用 无 数 次 。 它 们 描述 类 似 于 组 合 进程 
的 功能 。 函 数 总 是 用 return 结束 ,计算 并 返回 一 个 值 。 附 录 A 给 出 了 简化 的 函数 和 
进程 语法 规则 。 注 意 ， 输 入 参数 可 以 不 被 约束 ， 即 它们 没有 界限 。 我 们 描述 在 2.3 
节 的 进程 sp3 中 实现 的 函数 汉 明 权重 如 下 : 
function HammingWeight (input: std_logic_vector) return integer is 
variable HammingWeightCount : integer range 0 to input'length; 
begin -- the "input" parameter is unconstrained above because bounds are not declared 
HammingWeightCount := 0; 
for i in input'range loop 
if input(i) = '1' then HammingWeightCount := HammingWeightCount+1; 
end if; 
end loop; 
return HammingWeightCount; 
end HammingWeight; 


函数 的 代码 需要 在 结构 的 声明 部 分 定义 。 
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函数 可 以 有 多 个 参数 ， 并 且 可 以 激励 另 一 个 函数 。 例 如 ， 如 下 Hamming- 
WeightComparator 函数 有 三 个 参数 ， 并 调用 第 一 个 函数 为 HammingWeight : 


function HammingWeightComparator (input: std_logic_vector; 
thresholdLow: integer; thresholdHigh: integer) return Boolean is 








begin 
if HammingWeight(input) < thresholdLow then return false; 
elsif HammingWeight(input) > thresholdHigh then return false; 
else return true; 
end if; 


end HammingWeightComparator; 
以 下 代码 展示 了 调用 Hamming Weight 和 Hamming Weight Comparator 函数 模块 
的 完整 描述 : 


entity TestFunctions is 


port (BIND  :in std logic; -- signals from the onboard BIND 
sw :instd logic vector(7 downto 0); ^ -- signals from the onboard switches 
led : out std logic vector(7 downto 0)); -- signals to the onboard LEDs 


end TestFunctions; 


architecture Behavioral of TestFunctions is 
-- the code of the function HammingWeight given above 
-- the code of the function HammingWeightComparator given above 
begin -- invocations of the functions are shown below on simple examples 
led(6 downto 0)«-conv std logic. vector(HammingWeight(sw),7) when BTND-'0' 
else conv std logic vectorÁ'HammingWeight(not sw(7 downto 4)), 7); 
led(7) <= '1' when HammingWeightComparator(sw, 3, 6) = true else '0'; 
end Behavioral; 
RBI EA TE Pa BEBO PS (HUE, ERRARTE, eR BUD H 
Jj impure (所 有 的 函数 默认 为 pure) 。 移 除 函 数 HammingWeightComparator 的 第 一 
个 参数 ， 检 测 如 下 代码 : 
impure function HammingWeightComparator - error without the use of the impure keyword 
(thresholdLow: integer; thresholdHigh: integer) return Boolean is 
begin 
-- the lines from the function HammingWeightComparator given above 
end HammingWeightComparator; 


在 testfunction 实体 中 的 led (7) 行 必须 改变 〈 因 为 现在 只 有 两 个 参数 ) 为 如 
F: led (7) < = ‘1’ when HammingWeightComparator (3, 6) = true else ‘0’ ;, 
现在 ， 功 能 和 之 前 完全 一 样 。 

关键 字 impure 是 函数 的 可 选项 ， 这 个 选项 扩展 了 变量 和 信号 的 范围 ， 使 在 函 
数 外 声明 的 变量 和 信号 可 在 函数 内 部 使 用 。 因 此 ， 一 个 impure 函数 (对 比 pure PR 
数 ) 可 能 对 相同 参数 返回 不 同 的 函数 值 ( 很 类 似 上 述 例子 )。 

限 数 可 以 接收 和 返回 用 户 定义 类 型 的 值 。 看 如 下 实例 : 


entity FunctionSort is — -- this function was tested for the Nexys-4 board 
port ( sw :in std_logic_vector(15 downto 0); -- the onboard switches 
led : out std logic vector(15 downto 0)); -- the onboard LEDs 
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end FunctionSort; 


architecture Behavioral of FunctionSort is 
type array4vect is array (0 to 3) of std_logic_vector(3 downto 0); -- user-defined type 
signal my_array : array4vect; 


function sort (Data in : in array4vect) return array4vect is 
variable data |1 : array4vect; 
variable data |2 : array4vect; 
variable Data out : array4vect; 


begin 
for i in 0 to 1 loop 
if data in(i*2) <= data in(i*2*1) then 


Data_|1(i*2) := data in(i2*1); Data_1(i*2+1) : data in(i*2); 
else Data |1(i*2) := data in(i*2); Data 11(i*241) := data in(i*241); 
end if; 

end loop; 


for i in 0 to 1 loop 
if data I1(i) <= data I1(i*2) then 


Data I2(i) := data 11(i*2); Data |2(i+2) := data_l1(i); 
else Data I2(i) := data I1(i); Data 12(i+2) := data 11(i*2); 
end if; 
Data out(i*3) := data I2(i*3); 
end loop; 
if data I2(1) > data 12(2) then 
Data out(1) := data I2(1); Data out(2) := data 12(2); 
else Data out(1) := data. 12(2); Data out(2) := data I2(1); 
end if; 
return Data_out; 
end sort; 
begin 


my_array <= (sw(15 downto 12), sw(11 downto 8), sw(7 downto 4), sw(3 downto 0)); 


(led(15 downto 12), led(11 downto 8), led(7 downto 4), led(3 downto 0)) <= 
sort(my_array); 


end Behavioral; 


对 于 四 个 4 位 数据 项 ， 可 用 函数 实现 组 合 奇偶 合并 归 类 网 络 。 目 前 在 函数 中 如 
何 写 奇偶 合并 归 类 网 络 的 代码 并 不 重要 。 这 样 的 网 络 将 在 3. 4. 1 节 描 述 。 我 们 只 例 
证 如 何 使 用 用 户 定 义 类 型 的 输入 和 返回 参数 ( 如 上 面 的 代码 中 的 array4vect 类 型 ) 。 
这 个 例子 可 以 在 Nexys -4 板 中 测试 ,使 用 16 个 开关 和 16 个 LED。 从 四 组 开关 得 
到 数据 项 ， 正 如 上 面 赋值 给 my _ array 的 一 样 。 结 果 通 过 LED 显示 ，LED 分 为 相似 
的 组 (每 组 四 个 LED， 在 上 述 例 子 中 调用 函数 sort 的 地 方 。 数 据 项 以 降序 显示 
(最 大 值 在 led (15 downto 12), 最 小 值 在 led (3 downto 0))。 

过 程 不 同 于 函数 ， 因 为 它们 允许 产生 多 个 对 象 。 下 面 的 例子 是 过 程 leftl _ 
rightl ， 在 提供 的 向 量 (sw) 中 找到 首尾 “1” 的 位 置 。 每 个 位 置 的 数量 代表 与 右 
边 起 始 值 为 1 的 开关 的 相关 度 〈 即 假定 右边 的 开关 为 1 非 0， 则 当 开关 为 ON mbi 
免 所 有 的 0 显示 在 LED E), ， 如 图 2.8 所 示 。 
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entity TestProcedure is -- see Fig. 2.8 for additional explanations 
port ( sw :in std logic vector(7 downto 0); — -- the onboard switches 

led : outstd logic vector(7 downto 0)); -- the onboard LEDs 
end TestProcedure; 


architecture Behavioral of TestProcedure is 


procedure left right 
(signal sw — : in std logic vector; 
— sw is an input vector (all parameters are unconstrained; see appendix A) 
signalf left : outstd logic vector; -- f. left is the first result (the leftmost value | in the sw) 
signal f right : out std logic vector) is 
-- f right is the second result (the rightmost value | in the sw) 
variable first left, first right : integer range 0 to 8; 


begin -- initially the leftmost and the rightmost positions of 'I' are assigned to be 0 
first right := 0; first left := 0; 


for i in swrange loop - the first loop finds the leftmost position of 'I' (from N-I downto 0) 
if sw(i) = '1' then first left := i+1; exit; -- the range of first. left is from N downto | 
end if; 

end loop;  - f_left below receives the value of the leftmost 'I' in the given vector 


f left <= conv std logic vector(first left, 4); 


fori in swreverse range loop  -- the second loop finds the rightmost "I" (from 0 to N-I) 
if sw(i) = '1' then first right := i+1; exit; —-- the range of first. right is from | to N 
end if; 

end loop;  --í right below receives the value of the rightmost ‘I’ in the given vector 


f right <= conv std logic vector(first right,4); 
end left! right; -- end of the procedure 
signal first left, first right :std logic vector(3 downto 0); 


begin 
left1 right (sw, first left, first right); -- use of the procedure left! rightl 
led(7 downto 4) <= first left; — in this example the vector is taken from 8 switches and the 
led(3 downto 0) <= first right; — results are displayed on groups of LEDs (7,6,5,4) and (3,2,1,0) 
end Behavioral; 


如 果 我 们 像 下 面 一 样 声 明 过 程 : 
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procedure left1_right1( sw : in std logic vector; 
-- sw is an input vector (all parameters are unconstrained; see appendix A) 
f_left: out std_logic_vector; 
-- f left is the first result (the leftmost value | in the sw)) 
f_right: out std_logic_vector) is 
-- {right is the second result (the rightmost value | in the sw) 


则 综合 工具 会 报错 ， 说 输出 参数 必须 为 变量 ， 然 而 应 用 于 过 程 的 参数 sw，f left 
f right 在 上 面 的 实体 TestProcedure 中 声明 为 信号 。 但 是 ， 在 进程 调用 过 程 中 ， 参 
数 first left 和 first right 声明 为 变量 ， 如 下 面 : 


process (Sw)  - note that the signal sw does not appear on the left-hand side of assignments in the 
~ procedure left| right! and the signal declaration does not give rise to any problem 

variable first left, first right: std logic vector(3 downto 0); 

begin -- pay attention to the correct use of operators <= and := in the procedure leftl rightl 
left1 right1(sw, first left, first right); 
led(7 downto 4) «- first left; 
led(3 downto 0) <= first right; 

end process; 


考虑 另 一 个 例子 ， 程 序 找到 数据 项 集 (在 函数 FunctionSort 中 使 用 过 的 ) 中 的 
最 小 值 和 最 大 值 。 


entity ProcMaxMin is — -- this function was tested for the Nexys-4 board 
port ( sw :instd logic vector(15 downto 0); — -- the onboard switches 
led : out std logic vector(7 downto 0)); -- the onboard LEDs 


end ProcMaxMin; 


architecture Behavioral of ProcMaxMin is 
type array4vect is array (0 to 3) of std logic vector(3 downto 0); 


signal my array : array4vect; 
procedure max min( signalData in — : in array4vect; 
signal max v : out std logic vector; 
signal min v :outstd logic vector) is 
variable data out : array4vect; 
begin 


for i in 0 to 1 loop 

if data in(i*2) <= data in(i*2*1) then 
Data out(i'2):- data_in(i*2+1); Data_out(i*2+1) := data in(i*2); 

else Data out(i'2):- data in(i'2) Data out(i*2*1):7 data in(i^2*1); 
end if; 

end loop; 

if Data out(0) > Data out(2) then max v «- Data out(0); 

else max v «- Data out(2); 

end if; 

if Data out(3) « Data out(1) then min v <= Data out(3); 

else min v <= Data out(1); 

end if; 

end max min; 
begin 
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my. array <= (sw(15 downto 12), sw(11 downto 8), sw(7 downto 4), sw(3 downto 0)); 

max min(my array, led(7 downto 4), led(3 downto 0)); 

end Behavioral; 

在 组 合 电路 中 寻找 最 大 值 和 最 小 值 的 方法 将 在 3. 6 节 描 述 ( 见 图 3.16). XE 
只 介绍 如 何 使 用 不 同类 型 的 过 程 。 上 面 的 例子 可 以 在 原型 机 板 上 测试 ， 用 16 个 开 
关 和 八 个 LED。 数 据 项 类 似 于 上 面 的 函数 FunctionSort。 结 果 在 LED 上 分 组 显示 ， 
led (7 downto 4) 用 于 显示 最 大 值 ，led (3 downto 0) 用 于 显示 最 小 值 。 

块 是 使 在 设计 分 段 的 同时 发 生 语句 。 它 们 用 于 明晰 VHDL 模块 的 分 层 结构 
(尽管 不 广泛 使 用 ) ， 对 一 些 工 程 还 是 有 用 的 。 块 的 简化 语法 规则 见 附 录 A。 我们 
在 以 后 的 章节 中 不 使 用 块 ， 下 面 仅 给 出 一 点 相关 的 细节 。 这 里 分 段 描 述 上 面 的 模 
块 ， 在 两 个 标 为 block _with one function 和 block _ with _ another function 的 块 中 
使 用 两 个 函数 HammingWeight 和 HammingWeightComparator。 


entity TestBlock is 


port ( sw :instd logic vector(7 downto 0); —-- onboard switches 
led : out std logic vector(7 downto 0)); -- onboard LEDs 
end TestBlock; 


architecture Behavioral of TestBlock is 
signal HW : integer range 0 to 8; 
begin 
block with one function: block is -- the first line of the first block 
-- code of the function HammingWeight given above 
begin 
led(6 downto 0) <= conv. std logic vector(HammingWeight(sw), 7); 
HW <= HammingWeight(sw); 
end block block_with_one_function; -- the last line of the first block 


block_with_another_function: block is -- the first line of the second block 
-- code of the impure function HammingWeightComparator given above 
begin -- see example available at the Internet (http://sweet.ua.pt/skl/Springer201 4.html) 
led(7) <= '1' when HammingWeightComparator(3,6) = true else '0'; 
end block block with another function; -- the last line of the second block 
end Behavioral; 


分 段 设计 的 功能 跟前 面 的 一 样 。 新 信号 HW (在 结构 声明 部 分 ) 用 于 将 第 一 个 
块 的 结果 送 到 第 二 个 块 中 。 
块 语句 有 guarded signal 赋值 ， 只 当 块 守护 条 件 为 真 时 才 赋值 ， 举 例如 下 


entity TestBlockGuarded is 





port ( clk :in std logic; 
enableBTND : in std logic; -- the onboard BTND button 
BTNU : in std logic; -- the onboard BTNU button 
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sw :in std_logic_vector(7 downto 0); -- onboard switches 
led : out std logic vector(7 downto 0)); -- onboard LEDs 
end TestBlockGuarded; 
architecture Behavioral of TestBlockGuarded is 
signal shift rg :std logic vector(7 downto 0); 
signal divided clk : std logic; 
begin 


-- the block below copies sw to LEDs when BIND=| and shifts the copied values left 

-- when BTND-BTNU- I 

my block: block (enableBTND='1' and rising edge(divided clk)) is 
begin -- the guarded assignment below is done only if the condition above is true 


shift rg <= guarded sw when BTNU = '0' else shift rg(6 downto 0) & shift ra(7); 
end block my block; -- the end of the block 


led <= shift rg; -- the value of shift. rg is displayed on the onboard LEDs 


-- the dock divider below reduces the dock frequency to observe the changes of the LEDs visually 
low freq: entity work.clock divider port map(clk, divided clk); -- see appendix B 


end Behavioral; 


如 果 按 下 BIND 按钮 ， 则 将 开关 的 状态 复制 到 shift rg; 如 果 按 下 BTNU 按钮 ， 
则 复制 的 值 在 divided _ clk 的 每 个 上 升 沿 左 移 。 


2.5 类 和 生成 


通过 提供 向 量 大 小 、 值 域 、 重 复元 素 的 数量 等 参数 ， 类 语句 支持 可 升级 设计 。 
在 实体 声明 部 分 声明 默认 类 。 第 一 个 例子 将 介绍 如 何 使 用 不 同类 型 的 类 。 


entity TestGenerics is — -- it is assumed to be used for the Atlys board 
generic( name : string := "7954321";-- generic parameters with default values 
position : integer := 2; -- indicated after the characters ":=" 
max length — : integer := 7; 
my_char0 : character := '0'; 
my char9 : character := '9'; 
MSL ‘integer :- 4; 
bool value — : Boolean := true); 
port (led : out std logic vector(2*MSL-1 downto 0)); 
end TestGenerics; 


architecture Behavioral of TestGenerics is 
signal tmp : Boolean := false; 


begin 

assert (MSL «- 4) -- if MSL > 4 the message "wrong size for LEDs" is displayed 
report "wrong size for LEDs" — -- the message indicated here is displayed if MSL > 4 
severity FAILURE; -- severity can be NOTE, FAILURE, WARNING and ERROR 


assert position <= name'length -- check the position 
report "position is wrong" 
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severity FAILURE; -- severity FAILURE terminates the synthesis 
assert name'length <= max_length -- check the maximal length 
report "max length is wrong" 
severity WARNING; ^ — for severity WARNING the warning message "max length is wrong" 
-- (if activated) appears in the Design Summary/Reports 
led(2*MSL-1 downto MSL) <=std logic vector(conv unsigned 
((character'pos(name(position))-character' pos(my. char0)), MSL)); 
tmp <= bool value when character'pos(name(position)) > 
character'pos(my char9) else not bool value; 
led(MSL-1) <= '1' when tmp else '0'; 
led(MSL-2 downto 0) <= conv. std logic vector(name'length,MSL-1); -- name'length =7 
end Behavioral; 


LED 显示 的 结果 为 10010111。 前 四 个 数字 (1001) 是 ASCII 表 中 的 符号 “9” 
和 “0” 的 位 置 差 值 。 下 一 位 是 0， 因 为 “9” 的 位 置 不 比 “9” 的 位 置 大 (字符 串 
“7954321” 的 第 二 个 字符 是 “9”，my cha9 是 “9”)。 最 后 三 位 (111) 代表 字 
符 串 “7954321” 的 长 度 。 

类 行 name; string : = “7954321”; 定义 一 个 类 参数 name， 是 一 个 字符 串 ， 默 
认 值 为 “7954321”( 见 附录 A 中 literal)。 在 “7954321” 中 最 左边 的 字符 “7” 的 
位 置 为 1， 最 右边 的 字符 “1” 的 位 置 为 7。character'pos (name (position) ) 部 分 
使 用 pos 特性 (ULB oe A 中 attribute) 。 在 这 个 例子 中 ，position 的 默认 值 ( 即 2) 
使 character'pos (name (2) ) =character'pos (“9”) 返回 字符 “9” 在 ASCI 表 中 
的 位 置 ， 即 57io =3916。 可 通过 如 下 语句 检验 : 


led(2*MSL-1 downto 0) <= 
std logic vector(conv unsigned( (character'pos(name(2)) ), 8 )); 


LED 显示 的 结果 是 “00111001”， 是 等 式 5710 =3916 的 二 进 制 表达 式 。conv _ un- 
signed 和 std _ logic _ vector 提供 必要 转换 。 相 似 的 结果 也 可 由 下 面 的 语句 获得 : 

led(2*MSL-1 downto 0) <= conv_std_logic_vector(character'pos(name(2)), 8): 

提供 的 LED fiy “00111001” . 

从 上 面 的 代码 可 以 看 出 设计 是 可 升级 的 。 而 且 对 于 合适 的 需要 ， 可 以 改变 类 参 
数 来 适应 模块 。 例 如 ，tmp 信号 指 name 中 是 否 存在 低 于 字符 “9” 在 ASCI 表 中 位 
置 的 字符 。 如 果 改 变 my _ chard 的 默认 值 ， 例 如 改 为 5， 则 字符 检验 到 相关 的 字符 
“5” 的 位 置 。 

声明 语句 确保 满足 一 些 约束 。 例 如 下 面 的 语句 : 

assert position <=name'length ~- check position 


report "position is wrong" 
severity FAILURE; 


已 经 检验 position 是 否 少 于 或 者 等 于 name'length。 如 果 条 件 (less or equal: 
<=) 不 满足 ， 则 停止 综合 〈 因 为 选项 severity FAILURE;) ， 且 显示 信息 “positon 
is wrong”。 发 现 类 似 的 其 他 错误 和 警告 在 上 面 的 注释 中 显示 。 

现在 使 用 实体 TestGenerics 作为 更 高 等 级 实体 的 组 成 部 分 ， 如 下 : 
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entity NowForNexys4Board is —  -- it is assumed to be used for the Nexys-4 board 
generic (name : string := "FBCD"; -- the default value "7954321" was changed to "ABCD" 
new position — : integer := 3; -- the default value 2 was changed to 3 
max length : integer := "FBCD"length; -- the default value 7 was changed to 4 
my char F : character := 'F'; -- the default value 'O' was changed to 'P' 
-- the default value '9" for the my. char? was unchanged 


MSL ‘integer := 8); -- the default value '4' was changed to '8' 
-- the default value true for the bool value was unchanged 
port (led : out std logic vector(2 * MSL-1 downto 0)); 


end NowForNexys4Board; 
architecture Behavioral of NowForNexys4Board is -- the code is adjusted for the Nexys-4 


begin 
assert (MSL «- 8) -- now the MSL is tested for the value 8 
report "wrong size for LEDs" 
severity FAILURE; 


assert new position <= name'length -- the name new position is used instead of the position 
report "position is wrong" 
severity FAILURE; 
assert name'length <= max length 
report "max length is wrong" 
severity WARNING; 
To test: entity work.TestGenerics -- unchanged generics my char? and bool value are 
-- not used in the generic map statement below 
generic map (name => name, position=> new position, 
max length => max length, my_char0 => my char F, MSL => MSL) 
port map (led => led); 


end Behavioral; 


上 面 的 例子 用 于 Nexys - 4 fy, LED 显示 结果 为 1111110110000100 ( generic 
map 结构 允许 默认 类 值 用 新 类 值 代 替 )。 前 8 位 11111101 代表 二 进 制 补 码 - 310, 
Æ ASCI KP “C” (EP670) A “F” (BN 70.0) 位 置 的 差 值 ( 即 “C” 的 位 置 减 
“F” 的 位 置 ) 。 请 注意 ， 所 有 不 在 类 绘图 中 使 用 的 类 名 保持 不 改变 。 

第 二 个 例子 为 在 2. 4 节 描 述 的 HammingWeight 函数 中 使 用 类 参数 。 为 第 1 章 的 
图 1. 6 中 的 工程 创建 一 个 电路 原理 图 符号 。 开 始 的 时 候 ， 需 要 从 1.2. 1 节 复 制 电 路 
原理 图 资源 ( 见 图 1.6) 到 新 工程 ， 即 创建 新 工程 且 在 ISE 中 选择 选项 Project 一 
Add Copy of Source…， 从 先前 的 工程 中 添加 文件 DistTop. sch 到 新 工程 。 下 一 步 ， 
增加 新 资源 ， 即 顶层 模块 。 然 后 ， 在 Design Utilities 选项 下 双 View HDL Instantiation 
Template 并 复制 如 下 代码 到 顶层 模块 . 


UUT: DistTop port map (-- UUT is a label and we remind that YHDL is not case sensitiv 
s_in=>, 
cIK1Hz => , 
Sw=>, 
s_out=>, 
clock => , 
BTND => ); 
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最 后 ， 顶 层 模块 TestGenericslTop 需要 如 下 代码 : 


entity TestGenerics1Top is 


generic( number of bits : integer = 48;  -- generic parameters with default values 
max bits : integer := 52; 
bits Sr :std logic vector(4 downto 0) := (4 downto 2 => '0', others=>'1'); 
rst : Std logic := '0'); 
port( clk : in std logic; 
led : out std logic vector(7 downto 0)); 
end TestGenerics1Top; 


architecture Behavioral of TestGenerics1Top is 
signal Rg : std_logic_vector(number_of_bits-1 downto 0):=(others=> '0'); 
signal s in, clk1Hz, s out : std logic; 
signal limit : integer range 0 to max bits + conv integer(bits sr) := 0; 
-- code of the function HammingWeight given above in section 2.4 
begin 
process(cIk1Hz) -- the process takes bits from the output s out of the project from Fig. 1.6 
begin -- and pushes them to the shift register RG 
if rising edge(clk1Hz) then 
if limit <= (max bits + conv integer(bits sr)) then -- less than or equal operator <= 


limit <= limit+1; -- assignment operator <= 
Rg <= Rg(number_of_bits-2 downto 0) & s out; 
else Rg <= Rg; 
endif; after (max bits--conv integer(bits sr)) dock periods the Rg will contain max_bits 
end if; -- shifted values. Note that bits sr bits are skipped because the LUT-based shift register 
end process; - involves the bits sr delay (see details in Fig. 1.7: sw(4 downto 0) = bits sr) 


led(7 downto 3) <= conv std logic vector(HammingWeight(Rg), 5); 
led(2) <=s_out; led(1) <= clk1Hz; 


UUT: entity work.DistTop 
port map( s in => led(0), -- see also map in Appendix A 
clk1Hz => clk1Hz, Sw => bits sr, s out => s out, clock => clk, BTND => rst); 


end Behavioral; 

从 图 1.6 可 以 看 出 ， 基于 LUT 的 256 x 1 ROM 用 INIT 值 初始 化 ， 即 
OPOPO FO £0 £0 £0 £0 £0 £0 £0 fO £0 £0 £0 fO f0f0 f0 f0 £0 (0 £0 £00 0070301013731, ix 64 个 十 六 进 制 数 
字 代 表 64 x4 =256 二 进 制 数 (f). max _ bits 252 个 最 低 有 效 位 获得 最 后 的 num- 
ber of _bits =48 位 ( 即 最 新 复制 到 寄存 器 Rg 中 的 值 )。 模 块 计数 强调 数字 的 汉 明 
权重 ， 将 结果 复制 到 led (7 downto 3) 。 所 有 剩余 的 LED 作用 同 图 1.6。 因 此 ， 默 
认 类 的 值 是 led ( 7downto3 ) = 10010， 即 在 £07030101373,, = 
111100000111000000110000000100000001001101110011 有 18 个 1。 改 变 类 参数 
number _ of bits 和 max _ bits 用 于 计算 上 述 INIT 值 中 不 同 子 向 量 的 汉 明 权重 。 

类 参数 
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bits sr :std logic vector(4 downto 0) := (4 downto 2 => '0', others=>'1'); 
涉及 已 命名 的 联合 ， 元 素 4，3，2 为 值 “0”， 剩 余 元 素 为 值 “1” (细节 见 附 


录 A)。 
生成 结构 应 用 到 示例 器 件 的 阵列 中 。 如 下 代码 是 用 2. 1 节 中 描述 的 全 加 器 创建 


的 类 值 为 N 的 逐 位 进位 加 法 器 : 


entity Topis -- it is assumed to be used for the Atlys board 
generic( N : integer := 4); -- the default value of N is 4 
port( Op1 .:instd logic vector(N-1 downto 0); 

Op2 .:instd logic vector(N-1 downto 0); 

led :out std logic vector(N downto 0)); 


end Top; 
architecture Behavioral of Top is 
assert N «- 4 
report "cannot be used for the Atlys board because there are just 8 switches" 
severity FAILURE; 
signal carry in :std logic vector(N downto 0); 
signal carry out :std logic vector(N-1 downto 0); 
signal sum : std_logic_vector(N-1 downto 0); 
begin 
carry_in(0) <= '0'; -- carry in signal for the least significant full adder is zero 
generate_adder: -- an initial line with the label generate_adder at the beginning 
fori in 0 to N-1 generate -- "for" is used to generate a network from connected full adders 
FA: entity work.FULLADD -- connections are provided through indexed links 


port map( Op1(i), Op2(i), carry. in(i), sum(i), carry. out(i)); 
carry. in(i*1) <= carry. out(i); 
end generate generate adder; 


led <= carry. out(N-1) & sum; -- the results are displayed on the onboard LEDs 
end Behavioral; 

2.9 所 示 为 关于 N =4 的 逐 位 进位 加 法 器 是 如 何 产生 的 。 图 中 也 给 出 了 用 户 
约束 文件 ， 且 涉及 了 如 何 对 其 测试 。 

可 使 用 舱 套 生成 ， 而 且 使 用 嵌 套 生成 创建 网 络 的 例子 将 在 第 3 章 讨论 。 任 何 
VHDL 器 件 都 可 以 使 用 类 ， 默 认 类 参数 可 通过 提供 generic map 结构 用 新 值 替换 。 
在 描述 以 上 的 Now For Nexys Board 实体 时 ， 我 们 已 经 对 这 样 的 环境 做 出 了 解释 。 例 
如 ， 考 虑 如 下 的 更 高 级 别 的 器件 : 
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led <= carry out(N-1) & sum; 


LEDs 
















carry in(0)-'O' carry out(3) 


carry in(1)|«- carry. out(0) 





Result: 





led <= carry out(N-1) & sum; NET "Op1<0>" LOC - "A10"; 
NET "Op1«1»" LOC = "D14"; 


O O e O e e O per "led«0»" LOC - "U18"; 


NET "Op1«2»" LOC = "C14"; 


NET "led«1»" LOC - "M14"; NET "Op1«3»" LOC = "P15"; 
| NET "Op2«0»" LOC = "P12"; 


B n H H | NET "led<2>" LOC = "N14"; | 
T 3 B j | NET "led<3>" LOC = "L14"; | NET "Op2«1»" LOC = "R5"; | 

Y Y | 
| 








orr | 
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| NET “led<4>" LOC - "M13"; | | NET "Op2«2»" LOC = "TS"; 
‘ 77 | NET "Op2<3>" LOC = "E4"; 





Op2 Opi 


图 2.9 连续 加 法 器 的 功能 





entity higher_level is 


generic( New N : integer := 3); 
port( A :in std logic vector(New N-1 downto 0); 
B :in std logic vector(New N-1 downto 0); 
result : outstd logic vector(:New N downto 0)); 


end higher level; 


architecture Behavioral of higher level is 

begin 

-- other statements 

h. level: entity work. Top — -- generic map permits default generics to be replaced with new generics 
generic map( N-» New N) - now N = New N73 
port map(Op1=>A, Op2=>B, led=>result); 

-- other statements 

end Behavioral; 


generic map 结构 让 默认 类 (在 本 例 中 的 Top 实体 N 24). 用 新 值 (本 例 中 
New_N=3) RÆ, 


2.6 库 、 包 和 文件 


库 是 工程 设计 单元 (实体 或 者 结构 和 封装 ) 的 位 置 。 默 认 库 命名 为 work， 包 
含 工程 的 所 有 可 综合 资源 文件 。 例 如 2.5 节 的 最 后 一 个 工程 ，work 显示 了 以 下 五 
个 文件 : Atlys.ucf, Full _ adder. vhd, Half ^ adder. vhd, higher _ lever. vhd, 
Top. vhd。 前 面 介绍 过 的 实体 TestGenericslTop 显示 了 四 个 文件 ， 且 其 中 一 个 包含 电 
路 原理 图 ， 即 Atlys. uef, Clock — divider. vhd, DispTop. sch, GenericsAndAssert. vhd。 
需要 的 话 可 以 创建 用 户 定义 库 ， 并 命名 为 MyLibrary。 这 样 ， 在 ISE 中 可 以 完成 如 
下 步骤 :选择 Project+New VHDL library— < specify the name MyLibrary and loca- 
tion (directory) of the library >; @ 将 需要 文件 移动 到 MyLibrary (选择 模块 和 选项 
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Source—Move to Library — MyLibrary) 。 新 库 MyLibrary 需要 声明 如 下 : 


library MyLibrary; -- the default library work does not need to be declared 
use MyLibrary.all; 


work JÆ (h level; entity work. Top ) 需要 用 新 行 (h _ level: entity MyLibrary. Top) 
TRE. 

包 让 函数 、 过 程 、 常 数 、 类 型 和 器 件 在 不 同 的 文件 〈 该 文件 可 以 共享 ) hdd 
述 。 它 提供 一 种 分 类 收集 相关 的 服务 相同 对 象 的 声明 方法 。 下 面 三 组 : 中 提前 定义 
的 标准 包 ; ORNEK IEEE; @ 用 户 定 义 包 。 组 由 是 默认 包含 的 ， 定义 在 std 
和 IEEE 标准 库 中 ， 描 述 基 本 类 型 为 bit，bit vector, integer, natural, real (组 合 
工具 通常 不 支持 real) 和 boolean。 组 @ 定 义 在 IEEE 包 (必须 声 明 )， 描 述 普通 数 
据 类 型 、 函 数 和 过 程 。 这 里 只 考虑 XST KYL! B std _ logic 1164 (描述 
std _ logic, std ulogic, std logic _ vector 和 std _ ulogic _ vector 类 型 ， 和 相关 的 转 
换 函 数 ); std logic _ arith (描述 基于 std _ logic 类 型 的 无 符号 和 有 符号 向 量 以 及 相 
关 的 算术 操作 稍 数 ); std logic unsigned (描述 基于 std — logic Al std _ logic _ 
vector 类 型 的 无 符号 算术 操作 ) ;std__logic signed (描述 基于 std _ logic 和 std _ log- 
ic _ vector 类 型 的 有 符号 算术 操作 ); std _ logic _ textio (提供 支持 基于 文本 文件 的 
/0)。 注 意 ， 男 一 个 可 用 包 numeric _ std 类 似 于 std _ logic _arith。 包 std. textio (4E 
XTE std 标准 库 ) 提供 支持 简单 的 基于 文本 的 10。 

用 户 定义 包 ( 组 @) 可 以 从 工程 模块 中 进入 共享 定义 。 简 化 的 语法 规则 见 附 
录 A。 包 需要 声明 ， 其 主体 需要 定义 。 且 看 如 下 实例 : 


library IEEE; 

use IEEE.STD_LOGIC_1164.all; 

package MyPackage is -- declarative part of the package MyPackage 
constant limit : integer := 10; 


type my_array is array (0 to limit-1) of std_logic_vector(1 downto 0); 
function HammingWeight (input: std_logic_vector) return integer; 
component clock_divider 

port( clk : in std. logic; divided_clk : out std logic ); 
end component; 


end MyPackage; 

package body MyPackage is -- body of the package MyPackage 
-- code of the function HammingWeight given above in section 2.4 

end MyPackage; 


在 ISE 中 选择 新 资源 (Project—New Souree---) 创建 包 ， 然 后 选择 VHDL Pack- 
age。 现 在 ， 包 可 以 在 其 他 模块 中 使 用 ， 如 下 : 


library IEEE; 
use IEEE.STD_LOGIC_1164.all; 
use IEEE.STD LOGIC ARITH all; 


use work. MyPackage.all; -- this line is required 
entity UsesPackage is -- we would like to use MyPackage from the work library 
port ( clk : in std logic; 
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SW : in std_logic_vector(7 downto 0); 
led : out std_logic_vector(7 downto 0)); 
end UsesPackage; 
architecture Behavioral of UsesPackage is 
signal divided_clk : Std logic; 
begin 
-- other eventual statements that might use objects declared in the MyPackage 
led <= conv. std logic vector(HammingWeight(sw),8) when divided -clk = '1' 
else (others => '0'); 








my divider : clock divider port map (clk, divided clk); -- positional association 

end Behavioral; 

因为 器 件 clock _ divider 在 MyPackage 中 声明 ， 所 以 明确 的 库 指 代 (如 my _ di- 
vider; entity work. clock _ divider) 是 不 需要 的 。 

frg 1.7 节 将 描述 Atlys 板 和 主机 使 用 Digilent 的 IOExpansion 器 件 的 互 连 。 模 块 
IOExpansion 可 以 取 自 库 ， 例 如 : 

IO interface : entity work.IOExpansion 


port map(EppAstb, EppDstb, EppWr, EppDB, EppWait, MyLed, 
MyLBar, MySw, MyBtn, data from PC, data to PC); 


或 在 包 中 声明 ， 例 如 : 


package InteractionWithPC is 
component lOExpansion is ~ all the names have to be taken from the IOExpansion [4] 
port (EppAstb: in std logic; EppDstb: in std logic; EppWr : in std logic; 

EppDB : inout std logic vector(7 downto 0); EppWait: out std logic; 
Led  :instd logic vector(7 downto 0); — -- 8 LEDs on the PC side 
LBar :instd logic vector(23 downto 0); — -- 24 light bars on the PC side 
Sw :outstd logic vector(15 downto 0); -- 16 switches on the PC side 
Btn — :outstd logic vector(15 downto 0); -- 16 buttons on the PC side 
dwOut : out std_logic_vector(31 downto 0); -- 32-bit user-data from PC side 
dwin :instd logic vector(31 downto 0) ); -- 32-bit user-data to PC side 

end component; 

end InteractionWithPC; 


package body InteractionWithPC is ~ the package body is empty 
end InteractionWithPC; 


例证 图 1.27 的 相同 互 连 (9051.7 5$). 
use work.InteractionWithPC.all; 
entity TestIntPC is 


port ( sw :in std logic vector(7 downto 0); — -- onboard switches 
led : out std logic vector(7 downto 0); -- onboard LEDs 
EppAstb : in std logic; -- signals for the lOExpansion component 


EppDstb : in std logic; 
EppWr : in std logic; 
EppDB : inout std logic vector(7 downto 0); 
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EppWait : out std logic); 


end TestlntPC; 
architecture Behavioral of TestIntPC is 
signal MyLed :std logic vector(7 downto 0); -- declarations of user signals 
signal MyLBar : std_logic_vector(23 downto 0); 
signal MySw : std_logic_vector(15 downto 0); 
signal MyBtn : std_logic_vector(15 downto 0); 
signal data_to_PC : std_logic_vector(31 downto 0); 
signal data from PC :std logic vector(31 downto 0); 
begin 
data to PC <= data from PC;  -- data received from the host PC are sent back to the PC 
MyLed <= SW; -- onboard switches are displayed on virtual LEDs (PC side) 
led «- MySw(7 downto 0); -- 8 switches (PC side) are displayed on the board LEDs 


MyLBar <= MySw(15 downto 8) & MyBtn; -- 8 switches and MyBtn are displayed 


IO interface : |OExpansion 
port map(EppAstb, EppDstb, EppWr, EppDB, EppWait, MyLed, 
MyLBar, MySw, MyBtn, data from PC, data to. PC); 
end Behavioral; 
ÍT use work. InteractonWithPC. all 可 以 移 除 ，IO _ interface; IOExpansion 需要 替 
换 成 IO interface ; entity work. IOExpansion, 
XST (Xilinx Synthesis Technology) 有 限 支 持 工 作文 件 ， 在 本 章 参 考 文献 [3 ] 
中 有 描述 。 下 面 这 个 例子 关于 如 何 从 文件 data. txt 中 读 8 位 字 ， 并 用 阵列 my _ array 
记录 这 些 字 。 


use std.textio.all; -- this package has to be used 

use ieee.std logic textio.all; -- this package has to be used 

entity TestTextFile is -- text file data.txt has to be recorded in the same directory 
port(clk :in std_logic; -- ports can be initialized if required (see below) 


led | :outstd logic vector(7 downto 0) := (others=> 0 )); 
end TestTextFile; 
architecture Behavioral of TestTextFile is 
type my array is array(0 to 15) of std logic vector(7 downto 0); 
impure function read array (input data : in string) return my array is 
file my file : text is in input. data; 
variable line name  : line; 
variablea name — :my array; 
begin 
for i in my array'range loop 
readline (my fille, line name); -- reading a line from the file my file 
read (line name, a name(i)); -- reading std. logic vector from the line line. name 
end loop; 
return a name; 
end function; 
signal array name : my_array:=read_array("data.txt"); -- initializing the signal array name 
signal divided clk : std logic; -- a low-frequency dock 


begin 
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process(divided clk) -- changes are done with a low frequency and can be appreciated visually 
variable address : integer range 0 to 15 := 0; 
begin 
if rising edge(divided clk) then 
led « array name(address); -- displaying on the LEDs lines from the file data.txt 
address := address+1; -- incrementing the address to get the next vector 
end if; 
end process; 


divider: entity work.clock_divider port map (clk, divided_clk); 


end Behavioral; 


文件 my file 声明 为 fle myfile ; text is in inout data; 其 中 ，input _ data 是 有 
文件 名 的 字符 串 (如 例子 中 为 data. txt) ， 应 用 到 函数 read _ array 作为 参数 (ML sig- 
nal array name ; my array; =read _ array ( “data. txt") ;) 4. WS] PHA readline 
(text, line) (在 包 std. textio 中 定义 ) 和 read (line, std logic vector) (在 包 std 
_ logic textio 中 定义 ) 用 来 从 文件 data. txt 中 得 到 数据 ， 其 中 变量 my file Fil line _ 
name 各 自 有 类 型 text 和 line。 变 量 a name 是 有 16 个 向 量 的 阵列 ， 其 类 型 为 std _ 
logic | vector (7 downto 0)。 因 此 ， 首 先 读 出 行 a_ name; readline (my _ file, line _ 
name); 然后 ， 回 量 a_name (i) ， 其 类 型 为 std _logic vector (7 downto 0) ， 被 函 
数 read (line name, a. name (i) ); MX read _ array 返回 。 一 个 相似 的 技术 在 
本 章 参 考 文献 [3] 中 用 过 ， 即 从 文件 像 data. txt 中 初始 化 嵌入 存储 器 。 图 2. 10 所 
ANY TextTextFile 如 何在 Atlys 板 中 测试 (文件 data. txt 可 以 在 任何 文本 文件 编辑 器 
中 准备 ， 保 存在 工程 中 相同 的 目录 中 ) 。 其 他 例子 见 附录 A。 


data.txt: LED 的 状态 


[11111111 — 0 e e e LED 的 初始 状态 全 是 0( 见 


全 
实体 TestTextFile 的 声明 部 分 ) 


> 
o 
2 
an 
E 
a 
a 
B 
eo 
o 
e 
ta 
uw 


eooeoooeeeoooee 


8 
o 
000000000000000 


process(divided clk) 
variable address : integer range 0 to 15 := 0; 
begin 
if rising_edge(divided_clk) then 
led <= array_name(address); 
address := address+1; 
end if, 
end process; 


数据 重 显示 ， 即 地 址 从 0 ~15 改 变 ， 
ger ts ia 


8 
E 
8 
| 


00011000 一 一 > 
00111100 一 一 > 
01111110 一 一 > 
711111111 一 一 > 
00000000 一 一 > 
10000001 一 一 > 
01000010 一 一 > 
00100100 一 一 > 
00011000 一 一 > 
00000000 一 一 > 
10101010 一 一 > 


地 址 





eoeooooeeeeoceeee 
oooeoooeeeoooeee 
eoooeooeeoooooee 
OOOoOOe0e6000oooooe 








eooooeoeooooo 
OOoooeooeeooooo 


a<— 


v 


图 2.10 测试 工程 从 文件 data. txt 中 读 出 数据 


在 综合 期 间 ， 从 文件 中 读数 据 有 利于 填充 存储 /阵列 ， 类 似 于 初始 化 。 写 进 一 
个 文件 不 能 从 正在 工作 的 工程 中 完成 〈 因 为 在 综合 期 间 完 成 ) 。 它 可 用 于 查 错 ， 写 
明确 常量 或 类 值 。 一 些 例子 可 在 本 章 参考 文献 [3] 中 找到 ， 在 附录 A 中 给 出 了 一 
个 例子 〈 见 fle) 。 
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2.7 行为 仿真 


本 节 简 要 介绍 的 行为 (功能 ) 仿真 可 以 在 工程 执行 前 完成 ， 验 证 工程 模块 中 
的 逻辑 是 否 正确 。 其 他 细节 见 本 章 参 考 文献 [5 ，6 ] 。 我 们 将 使 用 Xilinx ISim 仿真 
器 ， 在 安装 ISE 时 已 自动 安装 (在 需要 时 选择 ISE 的 Design Properties 对 话 框 ) 。 

图 2.11 解释 了 行为 仿真 是 如 何 组 织 的 ， 需 要 两 个 文件 类 型 : 四 测试 的 模块 
(VHDL 或 者 例子 中 的 电路 原理 图 ) ;，@) 为 模块 创建 的 test bench 文件 。 而 且 如 果 在 
设计 中 使 用 Xilinx REER IP 核 ， 则 必须 包含 环境 明确 的 器 件 仿 真 库 (如 Xilinx 原 
语 和 IP FEE); Test bench 文件 为 专用 工程 创建 且 用 于 给 模块 提供 激励 。 在 ISE 中 
通过 增加 新 资源 (VHDL test bench 类 型 ) 创建 test bench 文件 ， 并 将 文件 与 已 综合 












































Y » A=. We 
过 的 模块 进行 连接 。 
测试 平台 模块 是 为 ©) 
Wij; 块 创 3S SE S library ieee; 
被 测试 模块 创建 的 gs A use jeee.std_logic_1164.all; 
FULLADD 的 : entity TestBenchFA is 
工程 结构 Jj end TestBenchFA; 
(a) LI xc6slx45-3csg324 © architecture behavior Aim EA i 
TestBenchFA signal A i std_logic := Qi 
Te Fx 仿真 库 具 有 signal B : std_logic := '0'; 
=] uut - FULLADD Rel signal carry in :std logic := '0'; 
= i1 half add 原 语 和 IP 核 signal sum :std logic; 
uel ander signal carry out :std logic; 
—u2 - half adder begin 
-- instantiate the Unit Under Test (UUT) below 
uut: entity work.FULLADD port map 
(A => A, B => B, carry in => carry, in, 
"ms fes sum => sum, carry. out => carry. out); 





~ Stim proc: process ~ Stimulus process 

begin --note, that not all input vectors are tested 
= 05 B <= '0'; carry in <= '0'; 

wait for 50 ns; ~ suspends the process for 50 ns 

A «s '0'; B <= '1'; carry. in <= 'O'; 

wait for 50 ns; 

A <='1'; B <= '1'; carry. In <= '0'; 

wait for 50 ns; 

A «x '1'; B «- '1'; carry. in <= '1* 

wait for 50 ns; 

A«z'1'; B <= '0'; carry, in <= '0'; 

wait for 50 ns; 

wait; ~ suspends the process 

end process stim proc; 
end behavior; 





ll sum 
WM carry oul| 0 


© 








='0" 
二 9 


'0'; B <= '0'; carry_in<: 


wait for 50 ns; 


\ J 
© 仿真 > ”行为 检测 句柄 > 





A <='1'; B <='1'; carry in <= 0 


wait for 50 ns; 


A <='1'; B <='1'; carry in <= '1* 


A «z'0; B<='1'; carry in < 
wait for 50 ns; 


仿真 行为 模块 
wait for 50 ns; 


仿真 一 


A< 


图 2.11 全 加 器 的 行为 仿真 


下 面 将 介绍 三 个 例子 。 第 一 个 例子 例证 全 加 器 的 行为 仿真 ， 这 个 全 加 器 在 2.1 
节 介 绍 过 ， 是 组 合 电路 。 第 二 个 例子 例证 时 序 电路 的 仿真 ， 这 个 时 序 电 路 是 up/ 
down 二 进 制 计数 器 ， 具 有 时 钟 使 能 和 同步 高 电 平 重 置 功能 。 该 计数 器 来 自 ISE 模 
板 ， 通 过 选择 Edit—Language Templates---—VHDL—Synthesis Constructs—Coding Ex- 
amples 一 Counters 一 Binary 一 UpZDown Counters。 最 后 一 个 例子 是 测试 在 ISE 电路 原 
理 图 编辑 中 使 用 Xilinx 库 原 语 创建 的 电路 〈 见 第 1 章 的 图 1.6). 的 行为 。 
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第 一 个 例子 的 所 有 步骤 (a, b, e) 如 图 2.11 所 示 。 第 一 步 a， 创 建 用 于 仿真 
的 工程 ， 即 增加 一 个 试验 台 文 件 (名 为 TestBenchFA) 用 于 连接 试验 台 和 FUL- 
LADD 模块 。ISE 提供 试验 台 模 板 , 但 需要 改变 代码 ， 见 图 2. 11 的 右边 。 实 体 
FULLADD 模块 在 结构 中 实例 化 ， 工 程 结 构 如 图 2. 11 所 示 ， 靠 近 标号 a。 结构 体 中 
有 一 个 进程 (stim _ proc) 用 于 产生 激励 (FULLADD 的 输入 每 50ns 改变 一 次 ， 直 
到 达到 最 后 的 wait 语句 )。 第 二 步 bp， 检验 试验 台 的 错误 。 在 这 个 例子 中 是 没有 错 
误 的 ， 因 此 直接 进入 到 最 后 一 步 c， 激 活 Simulate Behavioral Model 选项 。 结 果 ， 打 
开 了 有 仿真 波形 的 Sim 窗口 。 为 了 更 好 地 分 析 波 形 ， 需 要 放大 缩小 波形 ( 见 图 
2.11) 。 光 标 检验 特定 时 间 的 波形 值 《图 2. 11 描述 的 在 77ns 之 后 ) o 

如 下 模块 将 在 第 二 个 例子 中 仿真 : 


entity Counter is 


port ( reset, clock : in std logic; 
clock enable :in std logic; 
inc dec :in std logic; 
outputs : out std logic vector (3 downto 0)); 


end Counter; 


architecture Behavioral of Counter is 
signal count : std logic vector(3 downto 0); 
begin 
process (clock) 
begin 
if rising edge(clock) then 
if reset='1' then count <= (others => '0'); -- synchronous reset 
elsif clock_enable='1' then 
if inc_dec="1' then count <= count + 1; -- if inc dec- then increment the counter 
else count <= count - 1; -- if inc_dec=0 then decrement the counter 
end if; 
end if; 
end if, 
end process; 


outputs <= count; 


end Behavioral; 
添加 下 面 的 test bench for _ counter 并 与 Counter 连接 : 


entity for_counter is 
end for_counter; 


architecture behavior of for_counter is 
signal reset : std logic := '0'; 
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signal dock : std_logic := '0'; 

signal dock, enable : std_logic := '0'; 

signal inc dec : std logic := '0'; 

signal outputs : std. logic vector downto 0); 

constant cock period : time := 30 ns; -- clock period definitions (valid for simulation only) 
begin 
uut: entity work.Counter port map -- instantiate the unit under test (uut) 


(reset => reset, dock => dock, dock enable => dock enable, 
inc_dec => inc dec, outputs => outputs ); 


dock generator ~: process -- dock process definitions 
begin -- the process generates clock pulses 
dock <= '0'; 
wait for clock_period/2; ~ duty cycle for the clock is 50% 
clock <= 'I^ 


wait for clock_period/2; 
end process dock generator — ; 


stim proc process -- stimulus process 
begin 
reset <= "I's -- the first line **reset<="1'** 
wait for 30 ns; -- set the reset signal to "I" and wait for 30 ns 
reset <= '0'; dock enable <= '0'; inc dec <= 'I'; 
wait for 20 ns; -- change signals as it is indicated above and wait for 20 ns 
reset <= '0* dock enable <= 'I* inc dec <= 'I'; 
wait for 150 ns; -- change signals as it is indicated above and wait for 150 ns 
reset <= '0'; dock enable <= 'l'; inc dec <= '0'; 
wait for 55 0 ns; -- change signals as it is indicated above and wait for 550 ns 
end process; -- begin from the line **reset« —'|'^* after 30+20+150+550=750 ns 


end behavior; 


因为 Counter 是 时 序 电路 ， 试 验 台 需要 提供 时 钟 信 号 ， 在 clock _ generator 进程 
中 完成 。 仿 真 结果 和 其 他 细节 如 图 2. 12 所 示 。 


对 于 同步 复位 ， 输 出 在 第 一 个 时 钟 上 升 沿 到 来 之 前 初始 化 
19 OO re 











ee í 时 钟 周 期 为 30ns=30000ps ^ J 
5 if S È 
ge 在 30ns+20ns+150ns+550ns 王 750ns 之 后 再 次 初始 化 
d 
仿真 允许 时 间 设 置 为 900ns 


图 2.12 COUNTER 的 仿真 结果 


最 后 一 个 是 仿真 图 1.6 中 移 除 了 clock _ divider 的 电路 ， 如 图 2. 13 所 示 。 而 
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且 ， 出 于 仿真 目的 ， 低 频 时 钟 是 不 需要 的 。 唯 一 区 别 是 增加 的 试验 合 和 顶层 电路 原 
理 图 实体 的 连接 (例子 中 的 DistTop. sch) 。 
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图 2.13 图 1.6 的 电路 , 没有 clock divider 
创建 如 下 试验 台 : 
library unisim; -- include other libraries before this line 


use unisim.Vcomponents.all; -- this package is needed for Xilinx primitives used in the schematics 


entity DistTop DistTop sch tb is 
end DistTop DistTop sch tb; 


architecture behavioral of DistTop DistTop sch tb is 


signal s in, s out :std logic; 
signal sw :std logic vector (4 downto 0); 
signal BTND *std. logic; 
signal clock :std logic; 
constant clock period : time := 30 ns; 
begin 


module to test: entity work.DistTop port map 
(s in => s in, sw => sw, s out => s out, BTND => BTND, clock => clock); 


clock generation: process -- dock process definitions 

begin -- the process generates dock pulses 
clock <= '0'; 
wait for clock_period/2; 
clock <= '1'; 


wait for clock_period/2; 
end process clock_generation; 


-- a stimulus process is not needed because we would like the values 
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-- of sw and BIND to be permanently assigned in the line below 

sw <= (4 downto 3 => '0', others=>'1'); BTND <= '0'; -- settings are the same as in Fig. 1.7 
-- if required the values of sw and BIND may be changed in the relevant stimulus process, which 

-- will be used instead of the line above 


end behavioral; 
仿真 结果 就 是 图 1.7 中 的 结果 。 为 了 更 清楚 ， 图 2.14 所 示 为 图 1.7 中 的 波形 
和 使 用 试验 台 给 出 的 行为 仿真 结果 。 
csock_fiLTzLTsLILTSLTLPLTSLTSL Rol Rip fa fsl fal fs mel 


s in 











... "Tt00 = *¢ 


s. out 偏 移 八 个 时 钟 周期 (sw4…'SwO= "00111") f | 


Mas 5 5 es , C es 








图 2.14 对 比 图 1.7 的 物理 测试 结果 和 行为 仿真 
本 书 没 涉及 的 仿真 方法 还 有 很 多 ， 可 在 本 章 参考 文献 [5, 6] 中 找到 。 


2.8 原型 机 


本 章 涉及 的 例子 可 在 1.6 节 描 述 的 不 同 原型 机 板 上 执行 和 测试 。 显 然 ， 用 户 约 
束 文件 〈 即 引 脚 分 配 ) 和 FPGA 型 号 必须 也 做 出 适当 改变 。 

如 下 实例 在 DE2 -115 板 中 已 经 测试 过 (Xilinx 用 户 约束 文件 已 经 更 改 为 正确 
的 Altera 的 设置 文件 ) : 


library IEEE; 
use IEEE.STD_LOGIC_1164.all; 
use IEEE.STD LOGIC ARITH.all; 


entity AlteraProject is -- all names (except clock and reset) are the same as in [7] 
generic( size : integer := 18;-- the size of vectors for the HammingWeight function 
n LEDs : integer := 5):-- the number of the used LEDs 
port ( clock :in std logic; -- PIN Y2 
reset :in std logic; -- PIN. M23 for key0 
SW :instd logic vector(size-1 downto 0); 
ledr : out std logic vector(n LEDs-1 downto 0); 
ledg : out std logic vector(n LEDs-1 downto 0)); 
end AlteraProject; 


architecture Behavioral of AlteraProject is 
-- code of the function HammingWeight from section 2.4 without any change 
signal count : integer range 0 to size-1; 


signal divided clk : Std logic; 
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begin 





process (divided clk) 
begin 
if rising edge(divided clk) then 
if not reset ='1' then count <= 0; -- when the keyÜ is pressed then count is zero 
else — -- if HammingWeight(sw)>0 then count is changed from | to HammingWeight(sw) 
count <= (count mod HammingWeight(sw))*1; -- mod is the VHDL modulo operator 
end if; 
end if; 
end process; 


ledr <= conv std logic vector(count, n LEDs); 
ledg <= conv std logic vector(HammingWeight(sw), n LEDs); 


divider: entity work.clock divider 
port map (clock, divided clk); 


end Behavioral; 


如 果 一 个 或 多 个 开关 处 于 ON 状态 (HammingWeight (sw) >0), MIJ count 从 1 
到 HammingWeight (sw) 循环 改变 。 如 果 reset 处 于 激活 状态 (keyO 按钮 按 下 ) BU 
count =0。HammingWeight (sw) 的 值 显示 在 绿色 LED 上 (ledg), count 的 值 显示 在 
红色 LED 上 (ledr), reset 信号 低 电 平 有 效 ( 这 也 是 为 什么 将 信号 取 非 ) 。 

本 书 中 的 一 些 工程 使 用 指定 厂家 的 库 和 相关 技术 的 器 件 。VHDL 代码 如 下 : 


library IEEE; -- Xilinx LUT-based computation of the Hamming weight ( 
use IEEE.STD_LOGIC_1164.ail; -- the simplest Hamming weight counter in section 3.9) 
library UNISIM; = Xilinx library UNISIM for LUT primitives that are used below 


use UNISIM.VComponents.all; 


entity LUT 6to3 is 
port ( SixBitlnput :in std logic vector (5 downto 0); — -- 6-bit input vector 
ThreeBitOutput : out std logic vector (2 downto 0)); -- 3-bit Hamming weight 
end LUT 6to3; 
architecture Behavioral of LUT 6t03 is -- Xilinx LUTs below are configured in such a way that 


begin ~ permits the Hamming weight of 6-bit input vector to be produced in a combinational circuit 
LUT6 inst : LUT6 -- Xilinx LUT primitive LUT6 
generic map (INIT => X"fee8e880e8808000") -- LUT Contents 


port map (ThreeBitOutput(2), SixBitInput(0), SixBitInput(1), SixBitInput(2), 
SixBitInput(3), SixBitInput(4), SixBitlnput(5)); 
LUT6_inst2 : LUT6 -- Xilinx LUT primitive LUT6 
generic map (INIT => X"8117177e177e7ee8") -- LUT Contents 
port map (ThreeBitOutput(1), SixBitinput(0), SixBitlnput(1), SixBitInput(2), 
SixBitlnput(3), SixBitInput(4), SixBitInput(5)); 
LUT6 inst3 : LUT6 -- Xilinx LUT primitive LUT6 
generic map (INIT => X"6996966996696996") -- LUT Contents 


port map (ThreeBitOutput(0), SixBitlnput(0), SixBitlnput(1), SixBitInput(2), 
SixBitInput(3), SixBitInput(4), SixBitInput(5)); 


end Behavioral: 


上 面 的 代码 不 能 在 Altera FPGA 中 的 QUARTUS 环境 中 综合 。 但 是 ， 用 下 面 的 








Q as rca aunt sse 


代码 替换 上 面 的 代码 ， 即 使 用 常量 而 不 是 Xilinx LUT6 原 语 ， 可 在 Altera 和 Xilinx 
FPGA 综合 ， 且 工作 得 都 很 好 。 


library IEEE; -- the code below is tested in the DE2-115 board 
use IEEE.STD LOGIC 1164.all; -- with the Altera Cydone-IVE FPGA 
use IEEE.STD LOGIC UNSIGNED.all; -- this package is needed for type conversions below 


entity LUT 6to3 is 
port ( SixBitlnput :in std logic vector (5 downto 0); 
ThreeBitOutput : out std logic vector (2 downto 0)); 
end LUT 6to3; 


architecture Behavioral of LUT 6to3 is 


type LUT is array (2 downto 0) of std logic vector(63 downto 0); 

-- array below contains the same constants as used in the INIT statements in the code with LUTs above 

constant conf LUT : LUT :=(  X'fee8e880e8808000", -- array of constants 
X"8117177e177e7ee8", - is used here 
X"6996966996696996"); 


begin -- Hamming weight is found in the statements below 


ThreeBitOutput <= conf LUT(2)(conv integer(SixBitInput)) & 
conf LUT(1)(conv integer(SixBitInput)) & 
conf LUT(O)(conv integer(SixBitInput)); 


-- alternatively the following generate statement can be used: 
-- gen: for i in conf_LUT'range generate 

ThreeBitOutput(i) <= conf_LUT(i)(conv_integer(SixBitInput)); 
~end generate gen; 


end Behavioral; -- the same code can be used for Xilinx FPGAs without any change 

上 面 给 出 的 两 个 代码 描述 了 相似 的 功能 ， 即 在 组 合 电 路 中 计算 6 位 输入 向 量 的 
汉 明 权重 。 第 一 个 代码 明确 配置 Xilinx LUT， 第 二 个 代码 模糊 配置 相同 的 LUT， 但 
是 不 需要 供应 商 特定 的 库 。Altera Quartus 建立 的 电路 占用 八 个 逻辑 元 件 ，Xilinx 
ISE 建立 的 电路 对 于 Nexys -4 板 占 用 三 个 LUT。 这 样 ， 本 书 的 工程 也 可 以 在 其 他 公 
司 的 FPGA 板 上 执行 和 测试 。 

相似 的 ， 本 章 描述 的 大 多 数 其 他 模块 都 在 DE2 - 115 板 中 测试 过 。 

更 多 其 他 例子 见 本 章 参 考 文献 [8，9] 。 
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摘要 一 一 本 章 开头 将 简要 介绍 广泛 使 用 的 简单 组 合 和 时 序 电路 。 许 多 实例 都 在 
FPGA 电路 中 执行 过 。 接 下 来 将 讨论 多 种 优化 技术 ,特别 强调 板 级 ， 其 对 基于 
FPGA 的 应 用 非常 重要 。 介 绍 更 复杂 的 数字 电路 和 系统 ， 如 排序 和 搜索 的 并 行 网 络 ， 
汉 明 权重 计数 器 /比较 器 ， 并 发 向 量 处 理 单元 和 高 级 有 限 状态 机 。 设 计 这 样 的 电路 
用 于 有 大 量 数 据 的 操作 可 以 并 发 执行 。 基 于 网 络 的 解决 方法 ( 如 排序 和 计数 网 络 ) 
和 电路 有 效 映射 到 FPGA 原 语 (查找 表 ) 的 实例 。 讨 论 并 评估 一 些 可 用 方法 。 所 
有 的 电路 和 系统 均 用 VHDL 语言 描述 ， 在 FPGA 中 执行 和 测试 ， 最 后 提供 各 种 标准 
评估 :提出 的 许多 新 奇 的 解决 方法 都 将 参数 化 ， 这 使 得 非常 复杂 的 工程 可 以 在 
FPGA 中 实现 ， 用 于 解决 各 个 领域 的 高 级 问题 ， 如 数据 处 理 和 组 合 搜索 。 


3.1 组 合 电路 


组 合 电路 (Combinational Circuit, CC) 没有 存储 器 ， 因 此 电路 的 输出 值 仅 依赖 
当前 输入 值 。 本 节 将 简要 介绍 广泛 使 用 (组 1) 的 和 特殊 应 用 (组 2) CC, fü 
述 它们 在 行为 级 VHDL 中 的 功能 。 

第 一 组 包括 译 码 器 、 解 码 器 、 多 路 复 用 器 、 比 较 器 、 算 术 电 路 和 逻辑 移 位 需 。 
第 二 组 包含 从 给 定 布尔 函数 系统 综合 而 来 的 电路 ， 例 如 : 

Ww= (X,-15 "> Xi X9) s 

y =f, Gus, os Xi. X9); 

Ya-1 “fmi Gui, 7s Xs X9) 3 

其 中 ，yo，71，…，ym-1 是 电路 的 二 进 制 输出 ， 依 赖 于 二 进 制 输入 zw 1. ocn. xs 
xo; fo, fi, cc. f, -1 是 布尔 函数 的 了 上 系统， 描述 如 何 转换 输入 值 到 输出 值 ， 即 对 
于 任何 输入 向 量 Xi = (xn i, Ut, X] Xo) 构建 输出 向 量 Y; = (yo, vis UT. Jaiks 
Y=F(X;)。 对 于 m=1, Æ n 变量 的 布尔 函数 中 为 2 BQ", WR m >1， 则 不 
同 布尔 函数 的 数量 急剧 增加 。 表 3.1 4255 Powers = 256 个 布尔 函数 (n =3 个 变 
HE) F255 ，F254，…，F2，FI，Foe 
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A31 3 个 变量 的 不 同 布尔 函数 (n=3, m=1) 








X) Xj xo Fes Fiy 06e Fi, Fig / Fo Fs F; Reon fs F, F, Fy Fy Fo 
0 0 0 1 |  … e 0 0 0 0 0 0 0 0 0 0 0 0 
0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 
0 1 0 1 l e 0 0 0 0 0 0 0 0 0 0 0 0 0 
0 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 
1 0 0 1 | oM 1 1 1 1 0 0 0 0 0 0 0 0 
1 0 ] l I ec 0 0 0 0 1 1 1 1 0 0 0 0 
1 1 0 1 1 Be ne 1 1 0 0 1 1 0 0 1 1 0 0 
1 1 1 l 0 vee e l 0 1 0 1 0 1 0 1 0 1 0 


3&3. 1 最 右边 的 四 个 函数 可 描述 如 下 : 

Yo =Fo(x2, xi, x9); 

yı =F, (x, Xi, Xo) =x,and x; and xg; 

y; 2F5,(x,, x;, x9) =x,and x,and not x9) ; 

y3 =F3(x), X1, Xo) = (xzand x,and xg) or (x, and x, and not x) =x, and xj; 

注意 ， 函 数 y3 用 组 合 定理 简化 。 布 尔 函 数 的 最 小 化 方法 见 本 章 参考 文献 【1， 
2], PRANA. PAB yo. yi, Yo. ys 可 用 VHDL 描述 ， 可 用 综合 器 会 优化 相 
关 电路 。 

表 3. 2 为 布尔 函数 Fe 和 Piw 的 两 个 经 常 使 用 的 操作 ， 即 正 交 性 (orthogonality ) 
和 交集 (intersection) ， 用 如 下 的 一 般 形 式 定 义 : 


n-l 
Yos =y (a;xor b; ) ;yint = NOt Yeor3 


最 右边 的 符号 not 要 求 取 反 操 作 。 从 表 3.2 可 以 看 出 2 位 向 量 的 差分 对 的 结 
果 。 为 了 与 后 面 需要 使 用 的 十 六 进 制 数字 联系 ， 正 交 列 的 位 值 分 为 4 位 一 组 的 集 。 
表 3.2 布尔 函数 用 于 正 交 和 交集 操作 





向 量 A= |a, al 向 量 B= ibi, bol EZ 交集 
al ag b, b, You =Fon (A, B) Yim =Fim (A, B) 
0 0 0 0 0 E 1 
0 0 0 1 1 0 
0 0 1 0 1 0 
0 0 1 1 1 0 
0 1 0 0 l D 0 
0 I 0 1 0 1 
0 1 1 0 1 0 
0 1 I ] 1 0 
l 0 0 0 1 B 0 
1 0 0 1 ] 0 
1 0 1 0 0 1 
1 0 1 1 1 0 
1 l 0 0 1 7 0 
1 1 0 1 l 0 
1 1 1 0 1 0 ` 
1 1 1 1 0 l 
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如 下 VHDL 函数 描述 正 交 操作 : 
function ort (A : std logic vector; B : std logic. vector) return std logic is 
variable result : std. logic := '0'; 
begin 
for i in Arrange loop 
result := result or (A(i) xor B(i)); 
end loop; 
return result; 


WATE ih eRe ort (A, B) fü not ort (A, B) 的 返回 值 可 以 测试 正 交 and/or 
交集 。 
如 下 VHDL 组 合 进 程 给 出 了 男 外 一 种 描述 : 


process(A,B) -- A and B are two input vectors with equal generic sizes (size) 


begin 
intersected <= "1" -- intersected and orthogonal are output ports: intersected : out std logic; 
orthogonal <= '0'; -- orthogonal : out std logic; 
foriinsize-1 downto 0 loop — - size is a generic parameter 
if A(i) /= B(i) then orthogonal <= '1'; intersected <= '0'; exit; 
end if; 
end loop; 


end process; 

任意 的 布尔 函数 可 以 直接 在 VHDL 中 描述 。 例 如 ， 函 数 表 3.1 中 的 y 可 描述 
为 y3 =xl and x2。 可 用 真 值 表 (3€3.1 和 表 3.2) 直接 映射 到 FPGA 查找 表 一 一 
LUT 中 。 例 如 以 下 VHDL 代码 使 用 初始 配置 LUT (4, 1) 来 测试 2 位 的 向 量 A 和 B 
的 正 交 : 


library IEEE; 
use IEEE.STD LOGIC. 1164.all; 
library UNISIM; 
use UNISIM.vcomponents.all; ~ for using LUT primitives this library has to be included 
entity TestOrt is 
generic ( size : integer := 2); 
port( A :in std logic vector (size-1 downto 0): 
B :in std logic vector (size-1 downto 0); 
orthogonal : out std logic ); 
end TestOrt; 
architecture Behavioral of TestOrt is 
LUTA inst : LUT4 -- LUT instantiation from the ISE Devise Primitive templates 
generic map (INIT => X"7BDE") -- the initialization constant 7BDE is taken from Table 3.2 
port map ( 
O => orthogonal, -- LUT general output 
10 => B(0), ~- LUT input 
1 => B(1), -- LUT input 
I2 => A(0), -- LUT input ` 
I3 => A(1) -- LUT input 


j 
end Behavioral; 


其 他 描述 体现 在 组 1 中 广泛 使 用 的 电路 实例 中 。 更 多 细节 见 本 章 参 考 文献 











第 3 章 设计 技术 o 


[1]. 
3.1.1 译 码 器 
如 下 VHDL 代码 (可 直接 在 结构 体 中 使 用 ) 是 组 合 二 进 制 译 码 器 实例 : 


encoder_result <= "00" when encoder_input = "0001" else 
"01" when encoder_input = "0010" else 
"10" when encoder input = "0100" else 
"11" when encoder input = "1000" else "00"; 


左边 的 2 位 代码 是 右边 的 4 位 代码 中 值 “1” 的 索引 。 例 如 ， 代 码 “01” 指 代 
码 “0010” 的 值 “1” 的 位 置 。 

可 以 以 相似 的 方法 创建 处 理 多 位 的 电路 。 与 前 面 的 实例 很 相似 ， 译 码 嚣 (还 
有 之 后 描述 的 其 他 电路 ) 可 映射 到 FPGA LUT, | 


3.1.2 解码 器 
如 下 VHDL 代码 是 组 合 二 进 制 解码 器 的 实例 : 


-- the next lines can be used in architecture body 

decoder_result <= "0001" when decoder_input = "00" else 
"0010" when decoder_input = "01" else 
"0100" when decoder input = "10" else 
"1000" when decoder input = "11" else 
“TS 


左边 的 2 位 代码 是 右边 的 4 位 代码 中 值 “1” 的 索引 。 例 如 ， 因 为 右边 的 值 为 
“10”， 所 以 左边 的 代码 为 “0100”。 

而 且 普通 的 二 进 制 解码 器 需要 其 他 的 电路 。 例 如 ， 为 了 显示 十 进 制 数 ， 可 以 设 
计 出 7 段 显示 解码 器 。4 输入 接收 二 进 制 代码 ，7 输出 控制 各 自 显 示 段 (a ~ g)， 
如 图 3. 1a 所 示 。 




















5 f b : 
0,1,.,9 mmm g o4. f 
g F | I 0 CE — 
d | | nn gpe gala CES 
a pem ** lel eel hie 
ooo o [alifi afafa o 
0001 | 1 [olifi otooto 
BCD(3) —> a (000 | 2 [1]1]0|2 1[0]1] 
BCD(2) 一 > b [on] s |1]1|1|1]0[0]1| 
BCD(1) 一 >|gcp 码 到 7 段 c ac T 本 4 [0 i 1 1 | 0 im L1 1 | 
BCD(0) 一 >| 显示 解码 器 d 0101 | 5 |1 EINEAEG i11 
e [onmo] 6 [1]01|1|1|1|1 
f loni 7 falar] 00 lolo) 
g sooo ai iili] 
| i011 9 Ee eae 
10x | x j|o|or|o[o|o]o]o 
[tha | oloo e Lan ato] 
b) 








图 3.1 a) 7 段 显 示 解 码 融 的 段 确认 b) BDC 到 7 段 显示 解码 器 的 真 值 表 
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十 进 制 数 可 用 BCD 码 编写 ，BDC 码 包含 0000 ~ 1001 的 4 位 组 合 ， 代 表 十 进 制 
数 0 ~9， 如 图 3. 1b 所 示 (组 合 1010 ~ 1111 不 使 用 ) 。 
解码 器 可 用 VHDL 描述 如 下 ， 


with BCD select -- the segment is active when the corresponding bit in 7-bit vector below is one 
segments <= "1111110" when "0000", -- digit 0 

"0110000" when "0001", -- digit | 

"1101101" when "0010", -- digit 2 

"1111001" when "0011", -- digit 3 

"0110011" when "0100", -- digit 4 

"1011011" when "0101", -- digit 5 

"1011111" when "0110", -- digit 6 

"1110000" when "0111", -- digit 7 

"1111111" when "1000", -- digit 8 

1111011" when "1001", -- digit 9 

"0000000" when others; -- not valid input combinations 








end Behavioral: 
这 里 ， 显 示 段 a ~g 为 高 电 平 有 效 ， 组 成 7 位 输出 向 量 segment (符号 a 对 应 向 
量 中 最 高 有 效 位 ， 符 号 g 对 应 向 量 中 最 低 有 效 位 ) 。 
可 用 如 下 常数 代替 上 面 的 代码 : 
type my_array is array (0 to 15) of std_logic_vector (6 downto 0); 
constant converter : my array := ("1111110", "0110000", "1101101", "1111001", 
"0110011", 1011011", 1011111", "1110000", 
1111111", "1111011", "0000000", "0000000", 
"0000000", "0000000", "0000000", "0000000"; 
如 下 代码 完成 显示 有 段 的 解码 : 
segmentsP <= converter(conv_integer(BCD)); 
因为 一 些 原 型 机 板 中 显示 段 低 电 平 有 效 ， 所 以 需要 加 入 如 下 代码 ; 
Segments <= not segmentsP; -- segments are active low 
注意 附录 B 中 解码 器 的 VHDL 编码 ， 使 所 有 的 十 六 进 制 数 (0，…，A，B， 
C, D, E, F) 可 在 7 段 显示 管 的 显示 区 显示 。 


3.1.3 多 路 复 用 器 
如 下 组 合 进程 描述 4: 1 多 路 复 用 器 的 功能 ， 即 4 输入 A,，B, C, D, 1 输出 0: 


architecture Mux of Entity for Mux is 
begin -- 2-bit signal sel ect permits one of four inputs (A,B,C,D) to be selected 
process (A, B, C, D, sel ect) 





begin 
case sel ect is 
when "00" => O <= A; -- input A is sent to output 0 
when "01" => O <= B; -- input B is sent to output 0 
when "10" => O <= C; -- input C is sent to output 0 
when "11" => O <= D; -- input D is sent to output 0 


when others => O <= A; 
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end case; 
end process; 
end Mux; 


可 以 以 相似 的 方式 创建 处 理 更 复杂 的 电路 。 
3.1.4 比较 器 

组 合 比较 器 描述 如 下 〈 如 果 A 的 值 大 于 等 于 B 的 值 ， 则 结果 为 “1"， 其 他 为 
"0"); 


-- the next line can be used in architecture body 
comparator. result <= '1' when A >= B else '0*; 


相似 的 比较 器 可 用 组 合 进程 描述 : 





process(A,B) 

begin 
if (A >= B) then comparator. result <= '1'; 
else comparator. result <= '0': 
end if; 


end process; 


本 章 的 后 面 将 在 排序 网 中 使 用 比较 器 /交换 器 ， 它 们 的 描述 相似 ， 例 如 : 


maximum of A B <= A when A >= B else B; -- signal maximum of A B keeps the maximum 


minimum. of A B <= B when A >= B else A; -- signal minimum of A B keeps the minimum 


3.1.5 算术 电路 


算术 电路 已 在 2.1 节 描 述 过 。 这 里 将 给 出 另外 的 实例 ， 包 括 加 (+)、 减 
(-) 3€ C). BR (/) ERR (rem) 操作 。 


result <= 255 when (B = 0) and (but = "01000") else -- "divide by 0" (only BTNC is pressed) 
A + B when but = "00001" else -- only BINR is pressed 
A - B when (but = "00010") and (A>=B) else — -- only BTNL is pressed 
B-Awhen (but = "00010") and (A<B) else — -- only BTNL is pressed 
A * B when (but = "00100" else -- only BIND is pressed 
A / B when but = "01000" else -- only BTNC is pressed 
A rem B when but = "10000" else -- only BTNU is pressed 
0; 

不 同 的 信号 声明 如 下 : 

signal result :integer range 0 to 255; 

signal but :Std logic vector(4 downto 0); 

signal A,B : integer range 0 to 15; 

初始 数据 可 从 开关 dip 和 按钮 BTNU, BTNC, BTND, BTNL 和 BTNR 上 获得 

(ILEI 1.23 和 图 1.24)。 


but <=BTNU&BTNC&BTND&BTNL& BTNR; 
A <=conv_integer(dip(7 downto 4)); 
B | «sconv integer(dip(3 downto 0)); 


结果 可 用 LED 显示 和 检验 。 
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led <= conv std logic vector(result, 8); 


3.1.6 桶 形 移 位 器 


4 位 桶 形 移 位 器 有 四 个 数据 输入 D3…，D0 ， 四 个 数据 和 输出 Y3…Y0， 两 个 控制 
输入 C1C0。 输 出 向 量 Y3…Y0 等 于 输入 向 量 D3…D0， 由 控制 输入 指定 位 的 位 置 的 
数 旋 转 。 例 如 ， 如 果 输 入 信号 是 ABCD (每 个 字母 代表 一 位 )， 控 制 输入 10， 则 输 
出 向 量 是 CDAB。 如 下 代码 描述 桶 移 位 器 的 功能 : 

Y<= D when C="00" else 

D(2) & D(1) & D(0) & D(3) when C="01" else 
D(1) & D(0) & D(3) &D(2) when C="10" else 
D(0) & D(3) & D(2) & D(1); 

可 以 用 相似 的 方式 创建 处 理 多 位 的 电路 。 许 多 CC 的 其 他 细节 见 本 章 参 考 文献 

[3， 4] o 


3.2 顺序 电路 


大 多 数 数字 电路 是 具有 组 合 块 的 时 序 电 路 。 时 序数 字 电 路 (Sequential Digital 
Cireuit, SDC) 中 的 基本 概念 是 状态 由 当前 输入 和 过 去 的 SDC 功能 共同 决定 。 状 态 
保存 在 电路 分 配 的 存储 区 ， 可 由 特殊 信和 号 时 钟 〈 同 步 ) 或 者 输入 事件 (异步 ) 改 
变 。 本 书 只 讲 同步 SDC。 

类 似 组 合 电 路 ，SDC 可 以 分 为 两 组 ， 广泛 使 用 的 (组 1) 和 特殊 应 用 的 (组 
2) 的 SDC。 后 者 可 进一步 分 为 大 量 没有 清楚 定义 的 子 组 。 例 如 有 很 多 共性 的 设 
备 ， 比 如 有 限 状态 机 (Finite State Machine, FSM), PEO, PEORIA HINA. A 
统 的 一 个 共同 表现 称 为 寄存 器 传输 级 ( Register Transfer Level, RTL), RTL 定义 数 
据 如 何在 寄存 器 /存储 器 中 转移 ， 这 些 数 据 通过 组 合 逻辑 和 时 序 控制 电路 驱动 。 后 
者 可 以 是 FSM 或 异步 时 钟 等 。 通常 ， 描 述 所 有 的 SDC 很 困难 甚至 不 可 能 。 因 此 ， 
本 书 集中 在 3. 2 节 介 绍 一 些 简 单 的 设备 〈 第 一 组 ) ， 即 寄存 器 、 移 位 寄存 器 、 计 数 
器 及 有 累加 器 的 算术 器 件 。 特 丈 应 用 组 的 SDC 将 在 后 面 的 章节 中 介绍 。 


3.2.1 寄存 器 


由 普通 时 钟 〈 可 能 有 复位 ) 输入 的 Ress COND ARAE) 组 成 的 SDC 称 为 
ay fear, 用 VHDL 描述 如 下 : 
process (clk) -- D is an input vector and Q is an output vector 
begin ~ dk is a clock and rst is a synchronous reset with active high value 
if rising_edge(clk) then 
if rst='1'then Q <= (others => '0'); 
else Q <=D; 
end if; 
end if; 
end process; 


86 
_._ 


a 第 3 章 设计 技术 e 





以 下 代码 也 可 使 用 : 
Q <= (others => '0") when rising edge(clk) and (rst='1') else 
D when rising edge(clk); 


3.2.2 移 位 寄存 器 


移 位 寄存 器 是 使 存储 的 数据 在 每 个 循环 中 移动 一 位 (或 者 更 多 ) 的 R 位 寄存 
器 。 以 下 VHDL 代码 描述 并 行 输入 并 行 输出 的 移 位 寄存 器 。 并 行 输入 to. set 提供 将 
被 写 和 并行 寄 存 器 的 触发 器 中 的 新 向 量 。 然 后 ， 寄 存 器 中 的 向 量 可 以 在 每 个 时 钟 循 
环 中 (divided clk) 右 移 或 者 左 移 一 位 ， 方 向 由 信号 shift. direction 的 值 决定 。 


process (divided clk) 


begin 
if rising edge(divided clk) then 
if rst = '1' then 
reg <= (others => '0'); -- setting all flip-flops of the register to zero 
elsif set = "1' then 
reg <= to_set; -- copying data to the register 
elsif clock enablez'1' then -- shift dependently on direction 
if shift directionz'1' then -- if shift direction is | then shift right 
reg <= reg(0) &reg(7 downto 1);  -- shifting right 
else ] -- if shift direction is 0 then shift left 
reg <= reg(6 downto 0) &reg(7); ^ -- shifting left 
end if; 
end if; 
end if; 


end process; 


如 下 行 代码 使 其 可 以 读 出 寄存 器 中 的 向 量 : 


led <= reg; -- to display the result from the register 


如 果 需 要 ， 则 可 以 多 位 移动 。 例 如 ， 以 下 代码 在 每 个 时 钟 周期 中 移动 三 位 : 


if shift directionz'1' then — if shift direction is | then shift right 
reg <= reg(2 downto 0) & reg(7 downto 3); — shifting right 

else - if shift direction is 0 then shift left 
reg <= reg(4 downto 0) & reg(7 downto 5); -- shifting left 

end if; 


3.2.3 计数 器 


计数 器 是 时 序 电 路 ， 通 过 一 个 固定 的 状态 周期 重复 。 同 步 计 数 器 连接 其 所 有 的 
触发 器 时 钟 输入 到 相同 的 普通 时 钟 信 号 ， 以 这 种 方式 迫使 所 有 触发 器 的 输出 同时 改 
变 。 最 常用 的 是 二 进 制 计数 器 ,由 R 触发 器 组 成 ， 从 0 ~2* -1 计数， 返回 0 然后 
再 次 开始 计数 。 如 下 VHDL 代码 是 计数 器 ， 有 clock enable 和 count. direction 信号 
(所 有 必要 的 解释 见 注释 ) : 
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process (divided clk) 
begin 
if rising edge(divided clk) then 
if rst='1' then 


count <= (others => '0'); -- setting all flip-flops of the counter to zero 
elsif clock_enable='1' then -- counting dependently on direction 
if count_direction="1' then — — if count. direction is | then increment the counter 
count <= count + 1; -- incrementing the counter 
else -- if count. direction is 0 then decrement the counter 
count <= count - 1; -- decrementing the counter 
end if; 
end if; 
end if; 
end process; 


计数 的 结果 可 显示 类 似 于 前 面 移 位 寄存 器 的 实例 。 可 用 计数 器 完成 增加 /减少 
的 值 大 于 1。 例 如 ， 以 下 增 2 减 3 代码 : 


if count_direction='1' then -- if count direction is | then increment the counter 
count <= count + 2; -- incrementing the counter by 2 

else -- if count direction is 0 then decrement the counter 
count <= count - 3; -- decrementing the counter by 3 

end if; 


3.2.4 有 累加 器 的 算术 电路 


这 里 使 用 的 电路 可 以 执行 任何 操作 accu +B, {H accu 存在 特殊 寄存 器 中 ( 称 
为 累加 器 ， 在 第 一 个 操作 前 置 为 0) ， 特 殊 寄存 器 保存 之 前 操作 的 结果 。 例 如 ， 如 
AR B =3， 则 信号 accu 按 序 累积 如 下 : 3，6，9，12…。 且 看 如 下 声明 : 


signal B, accu :integer range 0 to 255; -- declaration of operand and accumulator 
signal divided clk :std logic; -- docks from a clock divider 

signal accu_enable : std_logic; -- signal enable for the accumulator 
signal op sel :Std logic vector(1 downto 0); -- op. sel selects an operation 


以 下 VHDL 代码 描述 一 个 有 累加 器 accu 的 算术 电路 ， 具 有 信和 号 reset 和 accu_ 
enable (所 有 必要 的 解释 见 注释 ) : 


process (divided_clk) 
begin 
if rising_edge(divided_clk) then -- low frequency clock to observe the functionality visually 
if (reset = '0') then accu <= 0; -- on active reset (zero) the accu is filled with zeros 
else 
if accu_enable = '1' then -- arithmetical operation is allowed if accu. enable = '1' 
case op_sel is -- op. sel selects the desired arithmetical operation 
when "00" => accu <= accu + B; -- accumulating the results of addition 
when "01" => accu <= accu-B; -- accumulating the results of subtraction 
when "10" => accu <= accu * B; -- accumulating the results of multiplication 
-- if B is not zero accumulating the results of division in the next line 
when "11" => if B /= 0 then accu <= accu / B; else null; end if; 
when others => null; -- each element of op. sel may have 
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end case; -= any from 9 values of std_logic type 
end if; 
end if; 
end if; 
end process; 


一 些 其 他 顺序 和 组 合 电路 的 描述 可 在 ISE/ Quartus 模板 中 找到 。 








3.3 有 限 状 态 机 


有 限 状 态 机 (Finite State Machine, FSM) 可 能 是 数字 电路 中 使 用 最 广泛 的 特 
殊 应 用 SDC。 这 也 是 为 什么 可 以 用 自动 设计 工具 允许 FSM 在 规定 的 格式 说 明 中 综 
合 。 因 为 一 个 FSM 是 时 序 电 路 ， 可 用 状态 为 aa ，…，aw_1， 在 状态 和 操作 (在 状 
态 和 状态 转换 期 间 ) 之 间 转 换 。 状 态 数 有 限 。 

基本 有 两 类 应 用 需要 FSM， 它 们 是 : 

(1) 由 更 复杂 的 数字 系统 组 成 的 自动 时 序 模板 。 例 如 ，FSM 可 以 读 位 序 ， 探 
测 顺 序 2 或 者 更 多 连续 值 。 许 多 相似 的 实例 ， 如 rising edge detector, debouncing cir- 
cuit 等 ， 见 本 章 参 考 文献 [4, 5]. 

(2) 控制 电路 。 例 如 ， 基 于 FSM 单元 的 组 合 进程 ， 见 本 章 参考 文献 [6]. VF 
多 其 他 的 实例 见 本 章 参考 文献 (7, 8]. 

: 图 3. 2 所 示 为 FSM 的 一 般 结构 ， 由 寄存 器 (保持 FSM 状态 ) 和 组 合 电 路 ( 提 
供 状 态 转换 和 产生 输出 ) 组 成 。 

















Xo 输入 X1 
Yo 输出 Wace Wie (ut Hen te. 





图 3.2 传统 FSM Ies 454. 





最 普遍 的 FSM 模型 是 Mealy 和 Moore， 它 们 产生 输出 的 方法 不 同 。Mealy FSM 
中 ， 输 出 信号 直接 依赖 当前 状态 和 当前 输入 ， 如 下 : 

Do = Po (To 7, Tg 1,Xo,77, X1); 
Dg, 2 Vg. , (To, TR- ;Xo,7 4X1), 
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Yo = Po (Tos ms TR X05» X105 
Yn-1 7 eu 1 (To, Tg 4, X9, Xp) 
其 中 ， We. mu Yr -1 是 转换 函数 ， Pos s 9N_1 是 输出 函数 ; Xo, cn X, 是 
输入 信号 ; Yo» "Us yn-1 是 输出 信和 号; 信号 To Nes Tg 1 fA A BAS (GS); 
信号 Do， wes Da -1 代表 下 一 状态 (N_S). 
在 Moore FSM 中 ， 输 出 信号 直接 只 依赖 于 当前 状态 如 下 : 
Yo = qo (To Tg 4) 5 
Yu -1 2 ey a (To, Tg i25 
两 种 方法 都 可 如 图 3.2 所 示 方 法 描述 结构 。 因 此 ， 主 要 的 不 同 是 组 合 电路 的 代 
表 ， 尽 管 同步 机 制 也 可 以 不 同 。 
通常 ，FSM 有 一 个 初始 状态 。 一 旦 接 上 电源 ， 信 和 号 rst 便 在 图 3.2 中 设置 GE 
新 设置 ) FSM 到 初始 状态 。 信 和 号 clk 同步 状态 转换 ， 即 从 一 个 状态 到 另 一 个 状态 。 
通常 ， 这 样 的 转换 在 信号 clk 上 升 沿 或 者 下 降 沿 执行 。 
有 许多 方法 来 描述 PSM 功能 ， 如 状态 转换 图 、 状 态 转 换 表 、 曲 线 图 等 。 
有 数据 通路 的 FSM (FSM with Datapath, FSMD) 包含 具有 执行 单元 的 FSM, 
如 寄存 器 、 计 数 器 等 ， 在 RTL 级 处 理 操 作 。 考 虑 在 寻找 两 个 非 负 整数 的 最 大 公 因 
子 的 电路 中 设计 FSMD, WF C 函数 IGCD 给 出 了 对 于 无 符号 整数 的 灵活 重复 执行 - 
代码 : 


unsigned int IGCD(unsigned int A, unsigned int B) 
{ unsigned int tmp; 





while (B > 0) 
{ if(B>A) {tmp=A;A=B; B=tmp;} 
else (tmp = B; B = A%B; A = tmp; } } 
return A; 


图 3.3a Pras Jy FSM 功能 类 似 函 数 ICCD, KI 3.3c 所 示 为 VHDL 代码 关于 
FSMD 计算 两 个 无 符号 整数 的 最 大 公 因数 。 代 码 中 有 两 个 进程 。 第 一 个 时 序 进 程 描 
述 状态 转换 和 改变 3 个 寄存 器 (FAM. A, FAM B, Res) 的 状态 ， 使 数据 在 组 合 进 
程 中 改变 ， 在 寄存 器 之 间 转 移 。 例 如 ， 寄 存 器 中 的 数据 可 被 交换 (FSM_A < = 
FAM B, FSM_B_next < =FSM_A) 或 者 找到 余数 (FSM_B < =FSM_A rem FSM_ 
B), 

顺序 数 (0-0) CRAG (ULÉI3.3b) 中 和 VHDL 代码 ( 见 图 3.3c) 中 的 
状态 转换 图 ( 见 图 3.3a) 中 的 操作 类 似 。 

注意 ， 图 3. 3a 和 图 3. 3b “PAY FSM 根据 Mealy 模型 建立 。 在 所 有 状态 中 的 操作 
依赖 FSM 的 所 有 状态 和 一 些 测试 值 (如 FSM_B >0 和 FSM_B >FSM_A)。 

以 下 VHDL 代码 可 以 轻松 应 用 于 1.6 节 提 及 的 任何 原型 机 板 的 工程 。 这 个 工程 
从 板 集 开 关 读 取 8 +8 位 数据 ， 计 算数 据 的 最 大 公 因 数 ， 并 在 LED 上 显示 结果 。 
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process (clk) -- sequential process 
begin ~- this process describes functionality of FSM register and auxiliary registers 
if rising_edge(clk) then 

if (rst = '1') then CS <= init; 

else CS«NS 


FSM A «- FSM A next; 
FSM B «- FSM B next; 
Res <= Res next 


end if; 
end if; 
Getting the , 1 
values A andB end process; 


process (C S, A, B, FSM_A,FSM_B, Res)  --combinational process 


N_S<=C_S; FSM_A_next <= FSM_A; 
FSM_B_next <= FSM_B; Res_next <= Res; 

case C_Sis 

when init => 


if (A = 0) or (B = 0) then Res next <= 0; N_S <= init; (1) 
else FSM A next <= A; FSM B next <= B; N S <= run state; 
end if; 








when run state => 
unsigned int IGCD(unsigned int A, unsigned int B) yc hs sn rur. sta FSM A next <= FSM B; 
( unsigned int tmp; 7 F FSM. B nex <= FSM. A: 
WIESO] else FSM A next <= FSM. B; FSM B next <= FSM A rem FSM B; (4) 


{ if(B»A)(tmpzA; A=B; B=tmp; } end if: 


E... i G dM B= A%B; A=tmp; } }(4) ele Fes noi <= FSM A; N S <= init; (S) 
when others => N_S <= init; 

end case; 

b) end process; 











c) 


图 3.3 在 FPCA 执行 递归 算法 计算 最 大 公 因数 
a) 状态 转换 图 b) C 语言 代码 c) VHDL 代码 的 FSM 


entity FSM_OneEdge_GCD is -- circuit with synchronization by one clock edge 


port ( clk :in std logic; 
rst :in std logic; -- BTNC button 
Ain :in std logic vector(15 downto 0); -- two 8-bit operands 


Result  :outstd logic vector(7 downto 0)); -- 8-bit result (on LEDs) 
end FSM_OneEdge_GCD; 


architecture Behavioral of FSM_OneEdge_GCD is -- the circuit was tested in Nexys-4 board 
signal A, B, FSM A, FSM B, FSM_A_next, FSM B next : integer range 0 to 255; 


type state type is (init, run state); -- enumeration type for the FSM states 
signal C S, N S :state type; 
signal Res, Res next : integer range 0 to 255; 
begin 
A <= conv integer(Ain(15 downto 8)); -- the first 8-bit operand from onboard switches 
B <= conv_integer(Ain(7 downto 0)); -- the second 8-bit operand from onboard switches 


-- copy here the FSM description from Fig. 3.3c 
Result <= conv_std_logic_vector(Res, 8); 
end Behavioral; 
考虑 根据 Moore 模型 建立 FSM WRH LS BCD Al QD Fe H y HH ZEB EJ X 
可 见 ， 输 出 不 依赖 输入 ， 只 依赖 状态 (count 和 final. state) ; fk a, b, c 指 在 状 
态 转换 图 ( 见 图 3. 4a) 和 VHDL 代码 ( 见 图 3.4b) 中 可 能 的 转换 。 以 下 为 该 实例 
中 信号 和 类 型 的 声明 


91 


e 基于 FPGA 的 系统 优化 与 综合 








signal index, next_index : integer range 0 to number_of_bits-1; 
signal A : Std_logic_vector(number_of_bits-1 downto 0); 
signal Res, next_Res, n_o_ones, next_n_o_ones 

: integer range 0 to number of bits; 








type state type is (count, final state); -- enumeration type for the FSM states 
signal C S, N S : state type; 
signal rst : std logic; 
process (clk) -- this is a sequential process 
next n o ones «- n o ones + begin 


if rising edge(clk) then 
if (rst = '1') then C. S <= count; index <= 0; n o ones <= 0; Res <= 0; 
else C_S<=N_S; 


conv integer(A(index)); 
next index <= index + 1; 









index <= next index, -- index for the vector 
no ones  «-nextn o ones, -- number of ones 
Res <= next Res; -- the result 
4 P (8) index # end if; 
number_of_bits-1 end if: 
end process; 
process (C_S, A, index, n_o_ones, Res) --this is a combinational process 
begin 
N_S «CS 
next index <= index; 
next n o ones «zn o ones; 
next Res«- n o ones; next Res «- Res; 
next n o ones <= 0; case C S is ©) 
next_index <= 0; when count => next_index <= index + 1; N_S <= count; 


next_n_o_ones <= n_o_ones + conv_integer(A(index)); O) 
if(index = number_of_bits-1) then N_S <= final state; (b) 
end if; 
when final state => N_S <= count; 
next Res <= n o ones; next n o Ones <= 0; next index <= 0; ©) 
when others => N_S <= count; 
end case; 
end process; 


Result <= conv_std_logic_vector(Res, 8); -- copying the result 











a) b) 
图 3.4 计算 给 定 二 进 制 向 量 中 1 的 数量 的 Moore FSM 
a) 状态 转换 图 b) VHDL 代码 的 FSM 

其 中 ，number_of_bits 是 类 参数 。 值 “1” 的 数量 ( 即 汉 明 权重 ) 是 来 自 Nexys -4 
板 集 开 关 的 16 位 向 量 的 计数 。 这 样 的 电路 可 能 是 有 趣 的 比较 组 合 〈 见 第 2 章 ) 和 
顺序 汉 明 权重 计数 。 顺 序 电路 占用 八 片 Artix -7 FPCGA， 最 大 可 获得 时 钟 频率 为 
560MHz (这 些 细节 来 自 Xilinx ISE 14: 7 Design Summary/Reports), MBI 3. 4b 可 以 
看 出 寻找 16 位 二 进 制 向 量 的 汉 明 权重 需要 16 个 时 钟 循环 。 因 此 ， 延 时 大 约 
为 28. 6ns。 

如 果 要 求 ， 则 也 可 以 建立 组 合 Mealy 和 Moore 模型 的 FSM。 许 多 额外 的 实例 将 
在 第 5 章 介 绍 。 





3.4 基于 FPGA 电路 和 系统 的 优选 





工作 在 比 非 可 配置 的 特殊 应 用 的 集成 电路 以 及 特殊 应 用 的 标准 产品 和 板 集 并 行 
机 制 更 低 的 时 钟 频 率 上 的 FPGA 显然 要 与 潜在 的 蔡 代 品 竞争 。 许 多 研究 工作 致力 于 
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解决 这 个 问题 ， 旨 在 在 不 同 水 平 应 用 并 发 性 。 我 们 描述 一 些 设计 高 并 行 性 电路 和 系 
统 技术 并 在 FPGA 上 执行 。 主 要 讨论 以 下 3 个 区 域 ; 

(1) 基于 网 络 的 解决 方法 ， 将 在 3. 5 节 讲 述 并 用 在 : 

1) 具有 大 量 并 行 转换 的 组 合 电路 〈 如 排序 网 络 !91 和 计数 网 络 !0"0] ) 同时 完成 ; 

2) 部 分 组 合 和 部 分 顺序 的 电路 具有 高 并 行 重 复 使 用 的 部 分 。 这 样 可 以 在 资源 
和 性 能 中 找到 更 好 的 折 中 方案 ; 

3) 寄存 器 组 成 的 管道 线 和 寄存 器 间 的 高 并 行 组 合 电路 ; 

4) 高 并 行 电路 在 大 的 二 进 制 和 三 进 制 向 量 上 执行 并 发 操作 。 

(2) 片上 系统 使 特殊 应 用 软件 和 硬件 加 速 器 并 行 运行 ， 执 行 方案 见 点 (1)。 
将 在 第 4 章 涉及 软件 /硬件 互 连 。 

(3) 特殊 应 用 顺序 电路 同时 执行 算法 的 多 重 分 支 。 将 在 第 5 章 讨论 这 样 的 
技术 。 

3.4. 1 ~3.4.3 节 将 给 出 更 多 关于 上 述 区 域 的 细节 ， 以 及 基于 FPCA 执行 有 效 的 
应 用 实例 。 


3.4.1 高 并 行 性 的 基于 网 络 的 解决 方案 


高 并 行 性 的 基于 网 络 的 解决 方案 使 并 发 操作 可 以 在 大 数据 中 执行 。 例 如 ， 已 知 
最 快 的 并 行 排序 方法 是 基于 奇偶 合并 和 双 调 合并 的 网 络 。 第 一 类 网 络 如 图 3. 5 所 示 。 


























这 些 步 又 中 的 
a) Yo Arasa DIN) 
1) 2) 3) 4) 5) 6) 
四 N om 
4 * 六 
4 4 4 
pt f 4 |f " J 
(144. 4144, 150 150, 150 150 150 
- S 
E E 
S E: 
zx 
= g 
x^ 
b A 独立 比较 器 的 竖 行 





图 3.5 奇偶 合并 排序 网 络 ，N =8 (可 用 于 任意 入 值 ) 
a) 网 络 b) 比较 器 /交换 器 
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这 有 比较 器 /交换 器 的 6 行 代码 ， 每 个 比较 器 可 用 VHDL 代码 描述 如 下 : 


MaxValue <= A when A >= B else B; -- A and B are input data items 
MinValue <= B when A >= B else A; 


给 定数 据 (lll 144, 119, 150, 96, 39, 55, 17, 21) 以 递减 顺序 排序 。 每 个 
竖 行 组 成 比较 器 /交换 器 ， 总 共 C (N=2?) = (p -p«4) x22 一 -1 个 这 样 的 器 
件 ，N 是 需要 排序 的 数据 的 数目 。 如 果 数 据 被 交换 ， 则 在 图 3. 5 中 用 斜体 和 下 划 线 
表示 。 注 意 ， 关 于 结果 的 决定 可 以 在 传播 所 有 坚 行 之 后 提前 执行 (如 图 3.5 中 的 
实例 ) 。 但 是 ， 我 们 不 能 从 提前 得 到 的 结果 《〈 即 在 传播 所 有 坚 行 之 前 产生 的 结果 ) 
中 获得 益处 ， 因 为 网 络 是 硬 连 线 的 。 

分 析 图 3.5 中 的 网 络 。 对 于 最 左边 的 竖 行 ， 四 个 并 行 比 较 器 /交换 需 可 以 并 行 
执行 。 所 有 这 样 的 操作 没有 任何 数据 依赖 性 ， 即 剩 下 的 操作 不 需要 它们 产生 的 任何 
结果 。 网 络 的 深度 D CN) ， 即 排序 N 数据 是 数据 相互 依赖 的 最 少 顺序 执行 的 步 又 
1,.., D (N)。 在 图 3.5 F, D (N) =6 和 并 行 操 作 数字 在 步骤 s=1，…，6 中 
fan) =4; nl-24; np =2; nf =4; nj-2; nf =3。 排 序 时 间 等 于 D(N) xt, Hep t 
是 任何 竖 行 的 延 时 ， 即 一 个 比较 器 /交换 器 的 延 时 。 众 所 周知 ， 奇 偶合 并 网 络 中 D 
(N=2?) =px(p+1l)Z2051。 在 图 3.5 所 示 网 络 中 , p=[logsN] =3, D(N) =6。 
因此 ， 奇 偶合 并 网 络 非常 快 。 例 如 ， 如 果 N =1024, MD (N) 仅 为 55。 | 

以 下 结构 体 VHDL 代码 描述 图 3. 5 中 的 网 络 : 


use work.set_of_data_items.all;-- the package where the type set_of_8items is declared 
entity EvenOddMerge8Sort is 


generic ( M : integer := 4; 
N : integer := 8 ); -- cannot be changed for this project 
port ( unsorted items — :in set of 8items; — - the type set of 8items is declared in 
sorted items : out set of 8items); -- the package set of data items 
end EvenOddMerge8Sort; 
architecture Behavioral of EvenOddMerge8Sort is 
signal out1 in2, out2 in3, out3 in4 : set of 8items; 
signal out4 in5, out5 in6, sorted : set of 8items; 
begin 


-- even-odd merging network 
merge1: -- see the fragment Merge | in Fig. 3.5 
for i in N/2-1 downto 0 generate - the first two parameters of the comparator are two operands 
group1merge': entity work.Comparator 
generic map (M => M) 
port map(unsorted items(i*2), unsorted_items(i*2+1), 
out1 in2(i*2), out1_in2(i*2+1)); 


end generate merge; - the last two parameters of the comparator are the maximum and the minimum 


merge2: -- see the fragment Merge 2 in Fig. 3.5 
foriin 0 to N/4-1 generate 
incide_merge2: -- the first data independent segment in merge 2 
for j in 0 to N/4-1 generate 
group1merge2: entity work.Comparator 
generic map (M => M) 
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port map(out1 in2(i*4*j), out1_in2(i*4+j+2), out2_in3(i*4+j), out2_in3(i*4+j+2)); 
out3_in4(i*4+j*3) <= out2 in3(i'4*j*3); 
end generate incide_merge2; 


group2merge2: entity work.Comparator -- the second data independent segment in merge 2 
generic map (M => M) 
port map(out2_in3(i*4+1), out2_in3(i*4+2), out3_in4(i*4+1), out3_in4(i*4+2)); 
end generate merge2; 


merge3: ~ see the fragment Merge 3 in Fig. 3.5 
for i in N/2-1 downto 0 generate -- the first data independent segment in merge 3 
groupimerge3: entity work.Comparator 
generic map (M => M) 
port map(out3 in4(i), out3_in4(i+4), out4 in5(i), out4_in5(i+4)): 
step1merge3: if (i >= 2 and i <= 3) generate 
group2merge3: entity work.Comparator -- second data independent segment in merge 3 
generic map (M => M) 
port map(out4 in5(i), out4_in5(i+2), out5 in6(i), out5_in6(i+2)); 
end generate; 


step2merge3: if (i < 2) generate 
out5 in6(i) <= out4 inb(i); 
out5 in6(i*6) <= out4 in5(i*6); 
sorted items(i*7) <= out5 in6(i*7); 
end generate; 


step3merge3: if (i < N/2-1) generate - the third data independent segment in merge 3 
Comp2merge3 : entity work.Comparator 
generic map (M => M) 
port map(out5 in6(2*i*1), out5 in6(2*i*2), sorted items(2*i*1), 
sorted items(2*i*2)); 
end generate; 
end generate merge3; 
end Behavioral; 


set of data items 包 包 含 如 下 行 : 

constant N : integer := 8; — cannot be changed for this project 

constant M : integer := 4; 

type set of 8items is array (N-1 downto 0) of std logic vector (M-1 downto 0); 


现在 ， 器 件 Even0ddMerge8Sort 可 在 N 216 的 网 络 中 使 用 ， 如 图 3.6 所 示 。 附 


K B 中 有 这 样 的 电路 实例 。 


再 次 ， 新 器 件 EvenOddMergel6Sort ( 见 附录 B) 可 被 创建 并 在 N =32 (ILE 


3.7) 的 网 络 中 使 用 。 任 何 大 小 的 网 络 都 可 类 似 创 建 。 但 是 这 里 存在 问题 ， 即 当 N 
增加 时 ， 网 络 的 复杂 性 〈 比较 器 的 数量 C (N)) 急剧 增加 ， 如 图 3. 8 所 示 。 这 样 
也 增加 执行 了 合并 操作 ， 如 图 3. 9a 中 的 奇偶 网 络 。 初 始 时 合并 每 个 子 集 ( 由 两 个 
数据 组 成 的 子 集 ) 。 然 后 把 产生 的 结果 分 成 两 个 数 一 组 的 子 集 并 合并 ， 产生 的 结果 
组 成 已 排序 的 四 个 数据 的 子 集 。 接 着 再 以 这 样 的 方式 重复 ， 直 到 产生 完全 排序 的 数 
据 。 任 何 块 中 要 求 的 比较 器 /交换 器 的 数量 以 矩形 表示 。 图 3. 9b 所 示 表 格 给 出 了 比 
较 右 /交换 器 在 最 后 一 步 ( 即 已 排序 的 子 集合 并 的 步骤 ) 的 数量 ， 在 所 有 步 又 中 比 
较 器 的 数量 N 从 8 改变 到 2048。 
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图 3.8 比较 器 数 随 六 数据 的 变化 



























































































































图 3.9 





a) b) 
a) 奇偶 合并 网 络 的 结构 b) N 个 不 同 值 的 比较 器 数量 


在 FPGA 网 络 中 ， 通 过 长 组 合 通路 的 传播 延 时 增加 ， 由 比较 器 /交换 器 和 必须 
插入 的 多 路 复 用 器 〈 即 使 在 一 般 电路 中 也 要 插 和 人 的) 以 及 互相 连接 构成 。 这 样 的 
路 由 开销 可 能 是 显著 的 。 双 调 合并 网 络 也 和 奇偶 合并 网 络 一 样 快 ， 但 是 后 者 消耗 的 
资源 较 少 〈 见 图 3.8)。 

部 分 组 合 和 部 分 顺序 的 电路 允许 在 资源 和 性 能 之 间 找 到 更 好 的 折 中 方案 ， 具 体 
将 在 3.5 和 3.6 节 介 绍 ， 其 中 还 会 讨论 管道 线 方案 。 在 大 的 二 进 制 和 三 进 制 向 量 中 
执行 相似 的 并 行 操作 将 在 3. 10 节 举 例 说 明 。 
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3.4.2 硬件 加 速 器 


从 图 3. 8 和 图 3.9 中 很 容易 得 出 ， 当 数据 的 数量 N 相对 较 小 时 ， 排 序 网 络 可 在 
FPGA 中 执行 ， 而 实际 应 用 要 求 处 理 大 量 的 数据 。 一 个 可 行 的 方法 是 先 在 FPGA 中 排序 
小 的 子 集 ， 然 后 在 更 高 系统 级 别 的 软件 中 合并 子 集 ， 如 图 3. 10 所 示 。 要 被 排序 的 初始 
数据 分 为 Z 个 子 集 ， 每 个 子 集 有 NN 个 数据 。 每 个 子 集 使 用 前 面 讨论 过 的 网 络 在 FPGA 中 
排序 。 合 并 执行 如 图 3. 11 所 示 ， 在 与 FPGA 链接 的 主机 系统 /处 理 带 中 执行 。 

将 在 第 4 章 讨论 两 类 更 高 级 别 的 〈 主 机 ) 系统 ， 如 图 3. 11 Bros, MOENGA 
过 可 用 接口 与 FPGA 通信 ; @@ 在 片上 高 性 能 接口 的 帮助 下 ， 所 有 可 编程 片上 营 片 
(All Programmable System on Chip, APSoC) Zynq 的 处 理 系 统 (Processing System, 
PS) 17 A Bei ibam" Logic , TH Hi. 
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已 排序 集 
图 3. 10 在 软件 的 较 高 级 系统 合并 已 排序 的 子 集 





对 于 以 上 考虑 的 问题 ， 当 
主机 系统 /处 理 器 合并 已 排序 
的 子 集 时 ，FPGA 加 速 数据 子 
集 的 排序 。 因 此 ， 数 据 需 要 转 
移 到 FPGA 和 从 FPGA 转移 出 ， 


is «i i: à ya FEB HPL) 
sg Pet qr s EY 基于 FPGA 的 原型 i Dt 
通信 的 开销 或 许 是 显著 的 ， 励 Fit IO (硬件 加 速 ) 


其 是 图 3. 11a 所 示 系 统 。 但 是 ， 





这 样 的 系统 在 不 同类 型 的 试验 " 
中 ， 支 持 必需 的 数据 交换 也 是 ee Li 
有 效 的 。 而 且 ， 类 似 图 3. 11b a) 通过 外 部 接口 (如 USB) b) 片上 
所 示 系统 是 非常 快 的 ， 因 为 数 

据 可 通过 非常 高 速 的 32/64 位 内 部 接口 转移 。 


3.4.3 RUDE FSM 运行 的 并 行 算法 
块 化 分 层 FSM ( Hierararchial FSM, HFSM) 执行 层次 块 组 成 的 控制 算法 (3]。 
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块 通过 一 个 自动 状态 转换 图 描述 ， 类 似 图 3. 3a 和 图 3. 4a。 考 虑 用 于 穿越 W 元 树 的 
HFSM 的 实例 。 








具有 局 部 根 的 3 个 子 树 可 以 并 行 思 历 


图 3. 12 ”元 树 实例 ，N =4 


人 元 树 是 根 连通 图 ， plenos ENS ERENT SE NE; 图 
3. 12 所 示 为 人 元 树 实 例 (N =4)， 可 看 作 代表 操作 的 A，B，C，D，E…，M 连接 
树 节点 a, b, c, d, e, .., m, MESURE 过 树 边 表示 。 另 外 ， 这 个 树 可 
以 表现 根据 给 定 关 系 连接 的 数据 集 。 在 这 种 情况 下 ,认为 符号 ^, B, C, D, E, 
…，M 为 数据 于 集 ， 树 边 代表 子 集 之 间 的 关系 。 

很 显然 可 以 创建 这 样 的 树 ， 并 通过 迭代 或 递归 过 程 穿越 。 例 如 ， 以 下 递归 C 
函数 (来 自 本 童 参考 文献 [12]) 可 以 完成 遍历 : 


void traverse tree(treenode* root, int depth) 
{ depth++; 
if (root == 0) ( depth--; return; ) // if root (node) does not exist it is equal to 0 
if (depth == max depth)( executing leaf operation (root); depth--; return; ) 
for (int i = 0; i < N; i++) 
traverse tree(root-»node[i], depth); 
depth--; } 


其 中 ，treenode 是 一 个 C 结构 ， 可 描述 如 (N 是 C 程序 中 的 常数 N) : 
struct treenode { 
l} other declarations — -- other declarations are collections of data or operations associated with the node 
treenode* node[N]; }; -- array of pointers to children (an element is equal to 0 if a child does not exist) 
JEW Hh, EAC PKA void iterative traverse tree (treenode * root, int depth) 建立 
具有 指针 指向 父 节 点 的 treenode 结构 。 
第 5 章 将 讲述 像 traverse_tree 等 函数 如 何 描述 为 硬件 块 并 在 HFSM 中 执行 。 允 
许 一 些 函 数 ( HFSM 模板 ) 并 行 激活 ， 例 如 图 3. 12 中 的 局 部 根 ， 因 此 ， 可 以 完成 
更 快 地 遍历 树 。 将 在 第 5 章 讲述 不 同类 型 的 HFSM, 





35 并 行 排序 的 设计 实例 


排序 是 许多 计算 系统 中 都 需要 的 过 程 !2] 。 对 于 许多 实际 应 用 ， 排 序 吞 吐 量 非 
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常 重要 。 两 个 最 常 研究 的 并 行 排序 是 基于 排序 (和 线性 '”| 网络 的 。 排 序 网 络 是 
比较 器 组 成 的 坚 行 数据 集 ， 可 以 通过 在 输入 多 数据 向 量 中 交换 数据 来 改变 它们 的 位 
置 。 数 据 从 左 向 右 传播 ， 在 最 右边 竖 行 的 输出 上 产生 已 排序 的 多 数据 向 量 。 研 究 3 
类 这 样 的 网 络 即 纯 组 合 的 ( 如 本 章 参考 文献 [3，15，21 ] ) ， 管 道 线 的 ( 如 本 章 参 
考 文献 [3, 15, 21]) 和 组 合 的 (如 本 章 参 考 文献 [3，16] ) 。 

已 经 在 3.4.1 节 提 过 ， 大 多 数 排序 网 络 在 硬件 上 执行 都 使 用 Batcher 的 奇偶 合 
并 和 双 调 合并 。 假 定 需要 排序 N 个 数据 ， 每 个 数据 大 小 为 M 位 。 本 章 参 考 文献 
(1S, 21] 的 结果 表明 上 面 提 及 的 排序 网 络 不 能 用 于 N >64 (M =32) 的 情况 ， 其 
至 在 来 自 Xilinx Virtex -5 系列 的 相当 高 级 的 FPGA FX130T 中 都 不 能 建立 ， 因 为 硬 
件 资源 不 够 。 当 N 增加 时 ， 电 路 的 复杂 性 《比较 器 C (N) 的 数量 ) 急速 增加 
( 见 图 3.8) 。 比 较 奇 偶合 并 和 双 调 合并 排序 网 络 〈 已 知 的 最 快 网 络 ) ， 且 具有 奇偶 
过 渡 网 络 '*| ， 这 个 网 络 具 有 速度 非常 缓慢 和 消耗 资源 巨大 的 缺点 。 尽 管 如 此 ， 这 
是 最 常规 的 网 络 且 可 在 FPGA 上 高 效 执行 。 

图 3. 13 所 示 为 奇偶 过 渡 网 络 用 于 与 图 3. 5a 相同 的 数据 排序 。 

图 3. 13 中 的 网 络 有 CCN) =Nx(N-1)/2 Api Zir, HET N 数据 的 网 
络 最 大 深度 D(N) 为 N。 例 如， 如 果 N=8C(N) =28, Jl) D(N) =8。 注 意 ， 对 于 奇 
偶合 并 电路 ( 见 3.4.1 节 )， 如 果 C(N) 219, WI D(N) =6。 但 是 对 于 图 3.13 所 示 
电路 ， 由 两 行 《 奇 和 偶 ) 比较 器 组 成 的 子 电路 是 完全 一 样 的 ， 可 以 以 这 种 方法 重 
复 使 用 ， 如 图 3. 14 所 示 。 这 让 比较 器 /交换 器 的 数量 以 因子 N/2 减少 〈 即 现在 5C 
(N) =7) ， 全 组 合 电路 变 成 两 个 可 重复 使 用 的 顺序 子 电路 ， 子 电路 高 并 行 执行 操 
作 。 因 此 ， 排 序 N 个 数据 要 求 迭 代 N/2 次 , 但 是 两 行 子 电 路 的 延 时 比 总 延 时 小 得 
多 ， 因 此 ， 执 行 迭 代 的 时 钟 频率 高 。 

















这 个 子 电 路 — 
可 以 重复 使 用 oe z 
144 一 ?一 14 150 15 150] € 
119—®-@-15 144 一 他 人 -144 144| & 
x 150—291 119 11 119| € 
a 96 794796 96 96 96| = 
< |39 一 -55 55 55 55[ 5 
f |55 一 ?39 39 39 39 | < 
> |17 —ẹ%-21 21 21 21| = 
21 一 上 一 17 17 17 17 
< 一 > 子 电路 组 成 的 两 行 延 时 J 
全 部 延 时 





< 
图 3. 13 奇偶 转换 排序 网 络 ，N =8 (可 用 于 任意 N) 


图 3. 14 中 的 电路 很 常规 ， 容 易 调 整 ， 当 写 人 输入 数据 和 从 寄存 顺 R 中 顺序 读 
出 排序 后 的 输出 数据 时 不 要 求 任何 附加 器 件 ， 只 应 用 了 移 位 操作 。 将 数据 并 行 送 到 
寄存 器 R 中 〈 处 理 之 前 从 外 部 送 入 的 数据 ,在 处 理 时 从 比较 器 中 送 入 数据 ) 需要 
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AUR EE Beg AS — 8 
行 中 至 少 有 一 个 数据 
交换 ， 则 enable =1, generate_even_comparators: 
否则 enoble =0 for i in N/2-1 downto 0 generate 
EvenComp: entity work.Comparator 

generic map (M => M) 

port map(input_items(i*2), input items(i*2*1), 

out1 in2(i*2), out1_in2(i*2+1)); 

end generate generate even comparators; 









generate odd comparators: This code will be 
for i in N/2-2 downto 0 generate referenced as IC 
OddComp: entity work.Comparator ^ in section 5.3 
generic map (M => M) 
port map(out1 in2(2*i-1), out1 in2(2*i*2), 
out2 in3(i*241), out2_in3(i*2+2)); 
end generate generate odd comparators; 


out2 in3(0) <= out1_in2(0); 
out2 in3(N-1) <= out1 in2(N-1); 











图 3. 14 奇偶 转换 排序 网 络 ， 具 有 可 重复 使 用 的 
奇 和 偶 行 (右边 的 VHDL 代码 IC 将 在 后 面 引用 ) 


使 用 N 路 复 用 器 。 而 且 在 图 3. 14 所 示 奇 侦 过 渡 网 络 中 ， 时 钟 周 期 数 (N/2) 可 以 
小 于 N/2。 这 里 引入 使 能 信号 enable， 当 图 3. 14 所 示 电 路 的 任何 第 二 竖 行 没有 数 
据 交换 时 ，enable 信号 为 0。 一 旦 enable =0， 则 所 有 的 数据 完成 排序 。 假 定 偶尔 收 
到 的 已 排序 的 数据 需要 顺序 ， 不 妨 设 为 8，7，6,， 5, 4, 3，2，1。 顺 序 电路 〈 见 
图 3.14) 具有 在 时 间 2 xt 内 已 排序 的 数据 ,，t 是 图 3. 14 中 的 竖 行 延 时 ( 即 一 个 比 
较 器 /交换 器 的 延 时 ) 。 图 3.5 和 图 3. 13 中 的 组 合 电路 仍 需 要 时 间 DCN) xt, AX 
它们 是 硬 布线 的 。 因 此 ， 图 3. 14 中 的 简单 电路 可 以 减少 步 数 ， 而 图 3.5 和 图 3. 13 
中 的 电路 无 法 实现 ， 第 5 章 将 介绍 一 些 实例 。 

管道 线 可 用 于 图 3.5 ( 见 图 3.15a)、 图 3.13 ( 见 图 3.15b) 和 图 3.14 (A 
3.15c) 中 的 所 有 网 络 。 采 用 管道 线 时 ， 需 要 的 资源 几乎 一 样 ， 因 为 FPGA 片 触发 
器 可 直接 使 用 ， 不 需要 附加 器 件 。 管 道 线 寄 存 器 (Pipeline Register, PLR) 的 位 置 
如 图 3. 15a ~c 所 示 。 图 3. 15d 所 示 为 网 络 ( 见 图 3. 15e) 排序 最 佳 和 最 差 的 向 量 
顺序 〈 记 录 在 寄存 器 R 和 PLR 中 )。 后 者 使 用 enable 信号 ( 见 图 3.14)， 测 试 该 信 
号 的 有 限 状 态 机 的 简单 部 分 如 图 3. 15e 所 示 。 有 enable 信号 的 完整 电路 的 VHDL 代 
码 将 在 5. 3. 1 节 给 出 。 对 于 图 3. 15a ^ e 所 示 所 有 电路 ，VHDL 频率 可 增加 。 再 重 
申 一 次 ， 图 3. 15e 所 示 电 路 是 消耗 资源 最 少 的 。 
奇偶 合并 网 络 似 乎 比 图 3. 14 中 的 电路 更 快 。 而 且 这 些 网 络 采 用 管道 线 可 以 获 
得 更 好 的 结果 。 但 是 实际 上 ， 即 使 奇偶 / 双 调 合并 快 一 些 ， 也 无 法 利用 这 样 高 速 的 
优势 。 得 到 这 个 结论 的 原因 如 下 。 甚 至 简单 的 实验 都 表明 图 3. 14 所 示 电 路 的 路 径 
消耗 更 低 。 由 于 通信 开销 ， 在 实际 应 用 中 无 法 达到 很 高 的 吞吐 量 。 而 且 ， 初 始 数据 
需要 送 入 排序 器 ， 结 果 必 须 送 出 排序 器 ， 通 信 速 度 是 瓶 希 。 后 者 对 于 处 理 小 数据 集 
的 网 络 更 严峻 ， 因 此 需要 更 频繁 地 交换 数据 (因为 数据 传输 的 量 实际 上 是 非常 小 
的 ， 很 难 应 用 全 突 发 模式 容量 )。 混 合 排序 器 〈 部 分 执行 在 软件 ， 部 分 执行 在 硬 
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a) c) ~----、 
t te N 
< pare > 数据 集 已 排序 完成 
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图 3.15 管道 执行 
a) 图 3.5 的 奇偶 合并 排序 b) [83.13 的 奇偶 转换 排序 c) 图 3. 14 的 电路 
d) 记录 在 寄存 器 和 PLR 中 的 向 量 顺序 e) 控制 图 3. 14 中 的 电路 的 状态 转换 图 的 部 分 




















件 ) 的 处 理 系 统 和 可 编程 逻辑 之 间 的 密集 通信 不 能 达到 理想 性 能 ， 因 为 处 理 系 统 
经 常 被 必要 的 数据 交换 打 断 。 

以 下 实例 给 出 了 完整 的 VHDL 代码 ， 使 图 3. 14 所 示 电 路 在 Atlys 板 中 检验 ， 其 
中 N=16，M=4。 功 能 可 在 主机 PC 中 测试 (在 虚拟 窗口 中 )。 细 节 见 1.7 Al 2.6 
节 。Nexys -4 板 的 其 他 细节 将 在 4. 1 节 和 4.4.2 节 中 给 出 。 


entity EvenOddTransitionlterative is -- this code is for the Atlys board 
generic ( M : integer := 4; 
N : integer := 16 ); 
port (clk : in std. logic; 
BTNC, BTNU, BTND, BTNL, BTNR  :in std logic; 
Sw :in std logic vector(7 downto 0); 
EppAstb : in std logic; ~ for the component lÜExpansion from Digilent 


EppDstb : in std logic; 
EppWr :in std logic; 
EppDB :inout std logic vector(7 downto 0); 
EppWait : out std. logic); 
end EvenOddTransitionlterative; 
architecture Behavioral of EvenOddTransitionlterative is 


signal MyLed :std logic vector(7 downto 0); 

signal MyLBar :Std logic vector(23 downto 0); 
signal MySw :Std logic vector(15 downto 0); 
signal MyBtn :std logic vector(15 downto 0); 
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signal data_to_PC :Std logic vector(31 downto 0); 

signal data from PC : std_logic_vector(31 downto 0); 

signal unsortedSwBtn : Std_logic_vector(31 downto 0); 

type set of 16items is array (N-1 downto 0) of std logic vector (M-1 downto 0); 
signal input_items : set of 16items; 

signal sorted :set of 16items; 

signal out1 in2, out2_in3 : set of 16items; 

begin 


-- 32-bit signal unsortedSwBtn contains values from virtual (MySw, MyBtn) and onboard (Sw, BTN) components 


unsortedSwBtn <= MySw & Sw & BTNU & BTND & BTNL & BTNR & 


MyBtn(3 downto 0); . 
MyLBar <= MySw & MyBtn(15 downto 8); -- these two lines are for tests only and can 
MyLed <= MyBtn(7 downto 0); -- be removed 
process(sorted, BTNC) -- displaying the results of sorting in virtual window (signal data to PC) 
begin 
if BTNC = '0' then -- onboard button BTNC enables different 32-bit data (B items) to be sent to PC 


foriin N/2-1 downto 0 loop 
data to PC((i*1)*M-1 downto i*M) <= sorted(i); 
end loop; 
else 
foriin N/2-1 downto 0 loop 
data to PC((i*1)*M-1 downto i*M) <= sorted(i*8); 
end loop; 
end if; 
end process; 
Process(clk) -- control of iterations in the network in Fig. 3.14 without the enable signal 
variable index : integer range 0 to N := 0; 
begin -- the signal input items is used instead of the register in Fig. 3.14 
if rising edge(clk) then 
if (index < N) then index := index; 
input. items <= out2 in3; 
else index := 0; sorted <= out2 in3; 
for i in N/2-1 downto 0 loop -- input. items keeps 16 4-bit unsorted items 
input_items(i) <= data_from_PC((i+1)*M-1 downto i*M); 
input_items(i+N/2) <= unsortedSwBtn((i+1)*M-1 downto i*M); 
end loop; 
end if; 
end if; 
end process; 
IO interface : entity work.IOExpansion -- link with the IOExpansion component from Digilent 
port map(EppAstb, EppDstb, EppWr, EppDB, EppWait, MyLed, 
MyLBar, MySw, MyBtn, data from PC, data to PC); 


-- even-odd transition sequential circuit shown in Fig. 3.14 (see also VHDL code IC on the right-hand side) 


generate even comparators: 
for i in N/2-1 downto 0 generate 
EvenComp  : entity work.Comparator 
generic map (M => M) -- the signal out!_in2 below provides connections between even and odd lines 
port map(input_items(i*2), input_items(i*2+1), out1_in2(i*2), out in2(i*21)); 
end generate generate_even_comparators; 


generate_odd_comparators: 


Qi aF rca masse a 








fori in N/2-2 downto 0 generate 
OddComp  .: entity work.Comparator 
generic map (M => M) -- the signal out2_in3 below provides connections with the register 
port map( outt_in2(2*i+1), out1_in2(2*i+2), out2_in3(i*2+1), out2_in3(i*2+2)); 
end generate generate_odd_comparators; 


out2 in3(0) <= out in2(0); ~ signals from the even line (because there are 
out2 in3(N-1) <= out1 in2(N-1); -- no passes through the odd line) 


end Béhavioral; 


比较 器 描述 如 下 : 


entity Comparator is 
generic (M : integer := 4); 


port( Opt, Op2 : in std_logic_vector(M-1 downto 0); 
MaxValue ; out std_logic_vector(M-1 downto 0); 
MinValue : out std logic vector(M-1 downto 0)); 


end Comparator; 


architecture Behavioral of Comparator is 

begin 

process(Op1,0p2) 

begin 
if Op1 >= Op2then . MaxValue <= Op1; MinValue <= Op2; 
else MaxValue <= Op2; MinValue <= Opt; 
end if; 

end process; 

end Behavioral; 


综合 电路 占用 132 He FPGA (6822 可 用 片 中 ) ， 等 效 的 奇偶 合并 网 络 需 要 
196 片 。 对 于 M =32， 综 合 的 结果 和 电路 的 执行 表明 奇偶 合并 网 络 可 在 考虑 的 FP- 
GA 中 实现 ， 仅 当 n =32 (由 于 资源 不 足 ) 时 ， 图 3. 14 所 示 电 路 可 以 自 定 义 和 执 行 
更 大 数量 的 N。 注 意 ， 实 体 EvenOddTransitionlterative 的 类 值 依赖 于 虚拟 和 板 集 外 
围 设备 ， 通 常 不 能 改变 。 但 是 ， 奇 偶 过 渡 迭 代 网 络 是 自 定 义 的 ， 即 它 可 以 在 不 同 T 
和 M 值 的 情况 下 使 用 ， 见 4.4 节 。 


3.6 并 行 搜索 的 设计 实例 


如 图 3. 16 所 示 网 络 ， 用 于 寻找 数据 (N =8) 的 最 大 值 和 最 小 值 “”' 。 
很 像 图 3. 13 所 示 网 络 ， 图 3. 16 所 示 网 络 可 以 用 图 3. 17 所 示 方 法 组 合 或 顺序 
执行 。 最 后 一 个 实例 中 的 硬件 资源 明显 减少 。 而 且 图 3. 16 所 示 电 路 需要 N + 


(log2N) -2 


Y, 2" 个 比较 器 /交换 器 ， 而 图 3. 17 所 示 电 路 需要 N/2 个 比较 器 /交换 器 。 图 


n=1 
3.17 所 示 执 行 是 很 常规 的 ， 对 于 任何 N NY ia Re 没有 负责 连接 。 最 小 
值 和 最 大 值 可 在 Ti 时 钟 周期 中 找到 ， 其 中 Tr =[ logN ] -1。 而 且 ， 在 最 后 一 次 迭 
IE (T) 中 ， 结 果 已 经 输出 至 比较 器 /交换 需 。 
本 章 参 考 文献 [23 ] 表明 ， 轻 微调 整 图 3. 17 的 电路 ， 就 可 以 用 于 非常 大 的 数 
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N 个 输入 数据 


(超出 百 万 个 数据 ) 集中 搜索 最 大 值 和 最 小 值 。 而 且 ， 这 样 的 电路 也 可 用 于 确 
类 型 的 排序 ， 也 在 本 章 参 考 文献 [23] 中 涉及 过 。 













2 
电路 可 以 是 顺序 或 组 合 管道 线 (很 像 图 3.13) E Ej 
Eg S% 
E € R 
= 3 gu 
99 -wm zi 
27 MERE A $ 
31 E 
14 u ni 
62 ti z 
9 8 uz 
31 。 输入 数据 oe 
LevelO Level 1 Level 2 = 的 最 小 什 = 
log;N- E 
图 3. 16 发 现 最 小 值 和 最 大 值 图 3.17 发现 最 大 值 和 最 小 值 的 电路 


网 络 ，N =8 (可 用 于 任意 N 值 ) 


以 下 VHDL 代码 描述 图 3. 16 所 示 全 组 合 电路 ， 仅 用 于 寻找 最 大 值 (类 参数 M， 


LAIN 的 默认 值 为 4, 4, 16; 工 是 图 3. 16 中 的 水 平等 级 ， 在 以 下 代码 中 分 别 为 0， 
1, 2, djs 


-- the same ports as for the entity EvenOddTransitionlterative in the example above without clk and BTNC signals 
architecture Behavioral of MaxCombinational is -- the name of the entity: now is MaxCombinational 
-- the same first 7 lines as in the architecture above (for the entity EvenOddTransitionlterative) 
type set of 16items is array (N-1 downto 0) of std logic vector (M-1 downto 0); 
type set of levels is array (0 to L) of set of 16items; 
signal to level, from level : set of levels; -- input/output signals for each level in Fig. 3.16 
begin -- this code is for the Atlys board 





-- concurrent assignments for unsortedSwBtn, MyLBar and Myled are the same as in the architecture above 
data to PC <= (31 downto 4 => '0) & to level(L)(0); 


process(data from PC, unsortedSwBtn) 
begin -- preparing input data for the circuits in Fig. 3.16 
for i in N/2-1 downto 0 loop 
to_level(0)(i) <= data_from_PC((i+1)*M-1 downto i*M); 
to_level(0)(i+N/2) <= unsortedSwBtn((i+1)*M-1 downto i*M); 
end loop; 
end process; 


-- declaration of the component lÜExpansion is the same as in the architecture above 
generate comparators: ~ generation of the circuit in Fig. 3.16 to find out the maximum value 
for j in 1 to L generate 
one level:  -- the code below is fully parameterized and can be used for any values of N and L 
for iin N/2**j-1 downto 0 generate -- for a given L, N= 2**L 
EvenComp : entity work.Comparator -- the comparator is generic 
generic map (M => M) 
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port map(to level(j-1)((2**))), to_level(j-1)(i*(2**j)+2**(j-1)), 
from level(j-1)( (2^), from level(j-1)(*(2*5))*2**(j-1))); 
end generate one level; 
lo level(j) <= from level(j-1); -- connects outputs of a previous level with inputs of the next level 
end generate generate comparators; 


end Behavioral; 
因为 N=2"， 所 以 在 代码 中 关于 N 的 类 可 以 移 除 ， 并 用 2 LREN SHE 
最 小 值 就 完成 了 。 在 比较 器 中 交换 两 行 是 有 效 的 〈 见 3.5 节 ) ， 即 送 入 第 三 接口 
MinValue 和 第 四 接口 MaxValue (而 不 是 3.5 节 的 MaxValue 和 MinValue ) 。 
以 下 VHDL 代码 描述 图 3. 17 所 示 电 路 ， 用 于 寻找 最 大 值 和 最 小 值 。 只 有 两 个 
类 参数 M，L， 默 认 值 为 4，4， 并 将 N 替换 为 2* *L, 


-- the same ports as for the entity Even0ddTransitionlteratve in the example above without the BTNC signal 


architecture Behavioral of MaxMinlterative is -- the name of the entity now is MaxMinlterative 
-- the same first 7 lines as in the architecture above (for the entity EvenOddTransitionlterative) 


type set_of_1Gitems is array (2**L-1 downto 0) of std logic vector (M-1 downto 0); 


signal MyRegister, from_comparators : set_of_16items; 
signal ResultMax, ResultMin : std_logic_vector(M-1 downto 0); 
begin 


-- concurrent assignments for unsortedSwBtn, MylBar and Myled are the same as in section 3.5 


data to PC <= (31 downto 8 => '0') & ResultMin & ResultMax; 


process(clk) 
variable iterations : integer range 0 to L-1 := 0; 
begin 
if rising edge(clk) then 
if iterations < L-1 then 
MyRegister <= from. comparators; 
iterations := iterations+1; 
else iterations := 0;  ResultMax <= from comparators(0); 
ResultMin <= from_comparators(2**L-1); 
for i in 2**L/2-1 downto 0 loop 
MyRegister(i) <= data_from_PC((i+1)*M-1 downto i*M); 
MyRegister(i*2**L/2) <= unsortedSwBtn((i+1)*M-1 downto i*M); 
end loop; 
end if; 
end if; 
end process; 


-- declaration of the component lOExpansion is the same as in the architecture above (in section 3.5) 
single line: -- generating a single line of comparators shown in Fig. 3.17 
for i in 2**L/2-1 downto 0 generate -- the code is parameterized and can be used for any value of L 
Comp: entity work.Comparator -- the comparator is generic 
generic map (M => M) 
port map(MyRegister(i"2), MyRegister(i*2+1), 
from_comparators(i), from_comparators(i+2**L/2)): 
end generate single_line; 


end Behavioral: 
3.5 节 和 3.6 节 以 及 后 面 章 节 中 的 所 有 工程 可 在 虚拟 窗口 中 测试 〈 细 节 见 1.7 
节 和 2.6 节 )。 
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回顾 图 3. 16。 假 定 第 一 个 和 最 后 一 个 数据 的 索引 是 Is 70, Thar 2 N71, 那么 
图 3. 16 中 的 电路 使 用 如 下 : 中 寻找 最 大 值 和 最 小 值 ; DHI Vince» VP lua, BE 
当 Dua < Das 时 重复 步骤 中 和 @)。 显 然 ， 这 样 的 方式 让 数据 如 图 3. 18 中 的 实例 一 样 





排序 。 


图 3. 18 所 示 网 络 在 后 面 的 步 又 中 稍 加 改变 。 图 3. 19 所 示 实 例 使 用 相同 的 网 络 





用 于 寻找 最 大 值 ， 是 完全 重复 使 用 的 。 
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图 3.19 网 络 排序 ， 


每 步 (在 一 个 时 钟 周期 执行 的 ) 找 
到 输入 数据 集中 的 最 大 值 。 之 后 ， 数 据 
向 上 移 位 ， 执 行 下 一 步 ， 如 图 3.20 所 
示 。 寄 存 器 R 关闭 ， 在 每 个 时 钟 周期 中 
产生 新 的 已 排序 的 数据 。 一 旦 比较 器 中 
没有 数据 交换 ， 则 所 有 的 数据 排序 完成 。 
因此 ， 一 个 时 钟 周期 之 后 ， 新 的 已 排序 
的 数据 准备 好 ， 有 N -1 个 比较 器 的 网 
络 深度 是 【 logsN ] ， 


需要 在 输出 结果 之 前 排序 完 所 有 的 数据 ， 则 
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图 3.20 由 图 3. 19 所 示 电 路 排序 
N 为 数据 的 数量 。 而 且 在 N 个 时 钟 周 期 之 后 ， 排 序 可 以 提前 
结束 。 例 如 ， 在 图 3. 19 rp, 4 个 时 钟 周期 之 后 排序 完成 ，N =8。 实 验 表明 ， 如 果 


前 面 描述 的 电路 ( 见 3.5 节 ) 应 该 更 


快 。 但 是 如 果 需 要 尽快 输出 已 排序 的 数据 ， 则 这 里 考虑 的 电路 更 好 而 且 更 快 。 显 
然 ， 图 3. 17 所 示 电 路 可 直接 使 用 ， 让 比较 器 的 数量 减少 到 NM2。 吞 吐 量 也 减少 ， 
每 个 新 的 已 排序 的 数据 在 Ti 时 钟 周期 后 准备 好 。 

再 次 回顾 搜索 问题 。 从 图 3. 17 中 可 以 看 出 在 每 个 时 钟 周 期 内 ，N/2 个 数据 
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时 钟 周期 








图 3.21 使 用 图 3. 17 的 电路 用 于 大 量 数据 
a) 发 现 最 大 值 b) 举例 
(其 中 包含 最 大 /最 小 值 ) 将 被 复制 到 寄存 器 R 的 顶 /底部 分 。 因 此 ， 寄 存 器 R AIR 
余部 分 (底部 或 项 部) 可 以 重复 用 于 载 人 数据 的 新 部 分 。 这 个 技术 使 我 们 能 够 在 
非常 大 的 数据 集中 找到 最 大 /最 小 值 ， 即 使 在 低 成 本 FPGA 中 。 图 3. 21 所 示 为 必要 
的 细节 。 图 3.21a 所 示 电 路 复制 网 络 的 偶 输 出 (包含 最 大 值 ， 见 图 3.17) 到 N/2 
M 位 字 的 寄存 器 R 的 上 面 。N/2 M 位 字 的 寄存 器 R 的 下 面 不 包含 最 大 值 ， 可 再 用 
来 载 和 数据 的 新 部 分 (如 图 3.21b 所 示 实 例 127，511，87，3)。 因 为 可 在 每 个 时 “ 


钟 周 期 载 入 新 部 分 ， 所 以 具有 @ 个 数据 的 最 大 值 可 在 + = 2 x 2- N 


时 钟 周期 内 找到 。 例 如 ， 如 果 © =27 =1048576, N=512, Mjr = 4103 。 这 样 的 电 
路 不 消耗 资源 ， 甚 至 可 以 在 低 成 本 的 有 外 部 存储 提供 输入 数据 的 FPCA 中 执行 。 在 
4.5 节 将 讲述 APSoC。 图 3. 21 所 示 电 路 可 在 APSoC 的 基础 上 应 用 执行 ， 在 大 数据 
集中 搜索 时 提速 明显 。 


图 3. 22a 所 示 电 路 在 + =4 x 9 = N + log, N] 时 钟 周 期 内 寻找 最 大 值 和 最 小 





+ [log;N] 个 





时 钟 周期 


1) 2) 3) 4) 
7 31 99 99 511 






N/2 项 在 奇 99 62 511 87 
数 时 钟 周 wm 62 127 87 |. | 
期 上 最 E 31 511| 14 || 
值 -最 小 值 x= 27 | 87} 62 | 
路 反 14 ，3 127 


7 14 3 62 
9 7 7 3 








图 3.22 a) 发 现 最 大 值 和 最 小 值 b) 举例 
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值 。 开 始 ， 需 要 两 个 时 钟 周期 (在 寄存 器 R 内 ) 产生 具有 最 大 值 的 N/4 M 位 字 上 
面 和 具有 最 小 值 的 N/4 M 位 字 下 面 。 之后，N/2 M 位 字 的 中 间 (寄存 器 R 的 ) 可 
重复 用 于 载 作 N/2 数据 新 的 部 分 ， 然 后 在 两 个 时 钟 周 期 内 ， 最 大 值 和 最 小 值 将 再 
次 转移 到 寄存 器 R 的 上 面 和 下 面部 分 。 因 此 , 需要 2 x (9 - N)/(N/2) = 4x 
(0 -N)/N 个 周期 来 处 理 (RA) 所 有 数据 ， 以 及 [ log; N] 个 周期 用 于 传播 最 后 
部 分 通过 最 大 值 -最 小 值 电路 〈 见 图 3.17) 。 如 果 @=22 =1048576，N =512， 则 
T=8197。 因 此 ， 技 术 可 处 理 大 数据 集 '*3] 。 


3.7 并行 计数 器 的 设计 实例 


并 行 计算 涉及 长 的 二 进 制 和 三 进 制 向 量 元 素 的 操作 "将 。 实 例 包括 计算 二 进 制 
向 量 的 汉 明 权重 〈 即 向 量 中 1 ABC) ， 比 较 汉 明 权 重 '*3]， 在 组 合 搜 索 中 涉及 
三 进 制 向 量 的 操作 5 和 数据 处 理 '” 。 在 许多 实际 应 用 中 ， 涉 及 向 量 操作 的 执行 时 间 对 
性 能 有 显著 影响 。 

考虑 基于 地 址 排序 的 实例 "1"”1。 其 基本 理论 非常 简单 ， 当 接收 到 一 个 新 的 数 
HERT, HAE V 用 作 存 储 地 址 并 记录 flagl。 假 定 初始 存储 为 0， 且 没有 重复 输入 值 。 
一 旦 所 有 的 输入 数据 在 存储 中 记录 为 长 二 进 制 向 量 形式 ， 则 排序 顺序 通过 有 序 读 出 
标 有 “1”flag 的 位 置 的 地 址 执行 。 如 果 知 道 在 每 个 存储 分 段 标记 了 多 少数 据 ， 则 
这 个 进程 可 以 明显 提速 。 分 段 大 小 介 于 十 位 到 千 位 之 间 ， 或 者 更 多 。 因 此 ， 有 必要 
找到 一 个 在 长 二 进 制 向 量 中 快速 计数 “1” 的 数量 的 方法 ( 即 其 汉 明 权重 )。 其 实 
有 许多 方法 ， 最 简单 的 依赖 于 顺序 计数 ( 见 3.4 节 中 的 实例 ) 和 时 间 消 耗 。 非 顺 
序 电路 经 常 构建 为 并 行 计数 器 551 ， 是 基于 全 加 器 树 的 电路 。 图 3. 23 所 示 为 本 章 参 
考 文献 [25] 中 的 固定 阐 值 的 汉 明 权重 比较 器 ， 即 使 用 并 行 计数 器 N = 15 
(HWis) 和 传输 网 络 (Cary Network, CW) 电路 。 比 较 结果 为 HWis _xk， 或 者 和 
HWs 加 国 值 * 的 二 进 制 补 码 一 样 。 

图 3. 23 所 示 电 路 对 于 任何 N 都 是 可 调整 的 。 图 3. 23 中 决定 元 素数 量 C (N) AMA 
HED (N) 的 公式 见 本 章 参考 文献 [25]: € (N) = (N-logN-1) x-ypq +log,N; 
D (N) = (loggN -1) x (Sum +8cany) +1， 其 中 YA 是 相对 于 门 的 全 加 器 (Pull 
Adder, FA) 的 成 本 (本章 参考 文献 [25] 中 为 9) Ssu Òn FA 延 时 参数 (相对 
于 门 的 FA 的 延 时 ， 本 章 参考 文献 [25] Foum = Su =2) 。 本 章 参 考 文献 [10] 表明 
在 FPGA 中 选 这 些 值 并 不 合适 。 本 章 参考 文献 [10] 中 的 汉 明 权重 比较 器 基于 并 行 计数 
器 [5]， 几 乎 总 是 比 本 章 参 考 文献 [26, 28, 29] 中 的 网 络 资源 消耗 少 ， 它 们 可 以 从 高 
优化 器 件 中 获 益 ， 在 一 般 FPGA 上 支持 算法 操作 。 因 此 ， 它 们 也 很 快 。 

以 下 VHDL 代码 描述 并 行 计 数 器 N =16， 汉 明 权 重 比较 器 有 固定 4 (BK, 
相关 的 电路 设计 适用 于 Nexys -4 原型 机 板 (Artix -7 FPCA) ， 占 用 9 片 ， 最 大 组 
合 路 径 延 时 为 5. lns。 
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FA- Full. |: 
加 法 器 


(aad ELK) — 
进 制 补 码 


(k_two_comp) 





比较 结 
HW_comp 


图 3.23 N=15 的 组 合并 行 计数 器 和 4 位 固定 阐 值 K 的 汉 明 权重 比较 器 ( 


entity ParallelCounterComparator is 
port ( sw : in std_logic_vector(15 downto 0); 
led : out std_logic_vector(4 downto 0); 
ledC : out std logic); 
end ParallelCounterComparator; 
architecture Behavioral of ParallelCounterComparator is 
signal R1, R2, R8, R4, R2 1, R2 2, R2 3, R2 4,R8 1, R3 2, Ra 3 :std logic; 
signal COut1, COut2, COut3, COut4 : std logic; 
signal COut2 1, COut2 2, COut2 3, COut2 4 : Std logic; 
signal COut3 1, COut3 2, COut3 3 : std logic; 
signal B : std logic vector(15 downto 0); -- represents 16-bit input vector 
signal PC out :std logic vector(3 downto 0); - represents 4-bit output for HW); 
( 
( 


进位 网 络 


signal threshold : std_logic_vector(3 downto 0); -- fixed threshold 
signal k two comp — :std logic vector(3 downto 0); -- 2's-complement of the threshold 
signal HW comp : Std logic; the result of the comparison 
begin 

B <= sw; -- input data are taken from 16 onboard (Nexys-4) switches 
threshold <= (1 => '1', 3 => '1', others => '0'); -- threshold that is 10 is chosen as an example 
k two comp <= (not threshold) + 1; -- 2's-complement of the threshold (of the value 10) 
-- structural code below allows direct mapping for the circuit in Fig. 3,23 
FAO: entity work.FullAdder port map(B(0), B(1), B(2 
FA1: entity work.FullAdder port map(B(3), B(4), B(5 
FA2: entity work.FullAdder port map(B(6), B(7), B(8 
FA3: entity work.FullAdder port map(B(9), B(10), B( 
FA2 0: entity work.FullAdder port map(R1, R2, B(12), 
FA2 1: entity work.FullAdder 

port map(COut1, COut2, COut2 1, R2 2, COut2 2); 
FA2 2: entity work.FullAdder port map(R3, R4, B(13), R2 3, COut2 3); 
FA2 3: entity work.FullAdder 

port map(COut3, COut4, COut2 3, R2 4, COut2 4); 
FA3 0: entity work.FullAdder port map(R2. 1, R2. 3, B(14), R3. 1, COut3 1); 
FA3 1: entity work.FullAdder port map(R2 2, R2 4, COut3 1, R3 2, COut3 2); 
FA3 2: entity work.FullAdder 

port map(COut2 2, COut2 4, COut3 2, R3 3, COut3 3); 


), R1, COut1); 
), R2, COut2); 
), R3, COut3); 
11), 

R2 


B 


(1 
(4 
(7 
(1 


R4, COut4); 
1, COut2_1); 
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15 的 并 行 计数 器 
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wie > Ne 16 的 汉 明 权重 


(led = HW.) 


Bis (carry. in) 


来 自 本 章 参考 文献 [25]) 
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led <= PC_out + ("0000" & B(15)); 
PC_out <= COut3 3 & R3_3 & R3 2 & R3. 1; 


CN: entity work.carry network : 
port map (PC out, B(15), k two comp, HW comp); 
ledC <= HW. comp; ~ the result of the comparison 
end Behavioral; 


全 加 器 描述 如 下 : 


entity FullAdder is 
port( A : in std logic; 

B :in std logic; 
Carryln : in std logic; 
Result  : out std logic; 
CarryOut : out std logic); 

end FullAdder; 


architecture Behavioral of FullAdder is 


begin 
CarryOut <= (A and B) or (A and Carryln) or (B and Carryln); 
Result <= A xor B xor Carryln; 


end Behavioral; 


以 下 VHDL 代码 描述 传输 网 络 ， 来 自 本 章 参 考 文献 [25]. 


entity carry network is -- entity for 4-bit carry network from [25] 


port ( PC_out :in std logic vector(3 downto 0); -- see names in Fig. 3.23 
carry_in : in std logic; 
threshold :in std logic vector(3 downto 0); -- two's complement of threshold 
HW comp : out std logic); -- the result of the comparison 


end carry network; 


architecture Behavioral of carry network is 
signal HW — :std logic vector(3 downto 0); 
begin 
first element: entity work. CN. element 
port map(PC_out(0), threshold(0), carry in, HW(0)); 


generate CN: fori in 1 to 3 generate 
CN element: entity work.CN element 
port map(PC out(i), threshold(i), HW(i-1), HW(i)); 
end generate generate CN; 


HW. comp <= HW(3); 


end Behavioral; 


entity CN elementis - entity for elements of the carry network from [25] 
port ( BitFromPC :in std logic; 
BitFromThreshold : in std logic; 
Carryln :in std logic; 
CarryOut : out std logic); 


end CN element; 

architecture Behavioral of CN element is 
signal and out : std logic; 
signal or out : std_logic; 
signal second_and_out: std_logic; 
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begin 
and out <= BitFromThreshold and BitFromPC; -- exact mapping of the circuit from Fig. 4 in [25] 
or. out <= BitFromThreshoid or BitFromPC; 
second and out <= or out and Carryln; 
-CarryOut <= second and out or and out; 
end Behavioral; 


很 容易 验证 图 3.23 所 示 电 路 是 非常 有 效 的 ， 但 是 还 有 其 他 更 快 、 消 耗资 源 更 
少 的 方案 ( 见 3.8 节 , 3.9 节 和 4.2 节 )。 


3.8 计数 网 络 的 设计 实例 





不 同 于 3.5 节 和 3.6 节 讲 述 的 电路 ,计数 网 络 不 包含 传统 比较 器 中 。 相 反 ， 
每 个 基本 器 件 是 半 加 器 或 者 异 或 门 ， 如 图 3. 24a 所 示 。 为 了 区 别 于 传统 比较 器 (UL 
图 3.5b)， 本 节 使 用 菱形 而 不 是 圆 形 表示 ( 见 图 3. 24a) ， 而 且 如 果 这 行 结束 ， 即 
如 果 没 有 进一步 连接 到 右边 〈 见 图 3. 24a 中 靠 上 的 块 ) ， 则 移 除 任何 与 横行 连接 的 
ZIG. Kd3.24b 所 示 为 计数 网 络 实例 ， 有 N =2? =8 个 输入 ， 其 中 p 是 非 负 整 数 ， 
实例 中 p =3。 






MSB 


Hl 


4 位 结果 








输入 向 量 中 有 4 个 “1 




















a) 


图 3.24 a) 计数 网 络 器 件 b) 计算 8 位 二 进 制 向 量 的 汉 明 权重 举例 


网 络 的 独立 数据 段 ( 见 图 3.24b) 组 成 竖 行 ， 在 使 用 的 器 件 之 间 没 有 任何 数据 
依赖 性 ; 因此 所 有 必需 的 操作 可 以 并 行 执行 ， 并 且 是 单个 器 件 的 延 时 。 因 此 ， 
3. 24b 所 示 电 路 的 总 延 时 等 于 6。MSB 是 最 高 位 ，LSB 是 最 低位 。 

图 3.24b 所 示 网 络 的 Level (一 个 或 多 个 段 组 成 的 ) 计算 汉 明 权重 : 2 位 
(Level 1 一 段 1); 4 位 (Level 2 一 段 2~3); 8 位 (Level 3 一 段 4~6) 二 进 制 向 量 。 
输入 数据 01100011 的 实例 如 图 3. 24b 所 示 。Level 1 计算 四 个 2 位 输入 向 量 的 汉 明 
权重 : 01, 10, 00, 11; Level 2 计算 两 个 4 位 输入 向 量 的 汉 明 权重 : 0110, 0011; 
最 后 ，Level 3 计算 1 个 8 位 输入 向 量 的 汉 明 权重 : 01100011 ， 其 中 有 四 个 “17”。 
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因此 ， 最 后 的 结果 是 0100。 (4io 的 二 进 制 代码 ) 。 

图 3. 24b 所 示 电 路 非常 简单 和 快速 。 仅 由 16 个 器 件 组 成 〈 见 图 3. 24a) ， 其 延 
时 可 忽略 。 设 计 类 似 电路 (对 于 非常 大 的 输入 (数量 N)) 的 一 般 规则 和 证 明 该 电 
路 的 预期 功能 的 过 程 都 在 本 章 参 考 文献 [10] 中 给 出 。 在 本 章 参 考 文献 [10] H, 
尤其 是 计数 网 络 对 于 任何 N( 即 不 必 满 足 条 件 N=2?) 可 以 轻松 构建 ， 如 图 3. 25a 
所 示 实 例 。 


Zero or additional bit(if required) 





XR X 
献 [25] 中 的 图 4 
< 的 比较 结 





x 的 二 进 制 补 码 


{x=7) 





b) 


< 的 比较 结果 











X EET 0 汉 明 权重 的 一 > 

010 010 0 N-n MSB 一 > 

911 3| smit > 13.8 

101 101/A/0 | B. )— c 的 比较 结果 
110 110/¥/0 

111 gaal |i 





d) 


图 3.25 a) 计数 网 络 N 和 2? b) 进位 网 络 块 组 成 的 进位 网 络 
c). d) AE LUT 的 电路 形成 比较 结果 


与 前 面 所 讲述 的 并 行 计 数 器 很 像 ， 计 数 网 络 可 用 于 汉 明 权重 比较 器 (Hamming 
Weight Comparator，HWC) ，HWC 将 图 3. 25a 中 的 网 络 输出 结果 与 固定 国 值 K 或 者 
类 似 3. 25a 所 示 电 路 的 结果 比较 。 因 此 ， 描 述 的 问题 与 本 章 参 考 文献 [25] 完全 
一 样 。 有 两 种 方式 用 于 最 后 的 比较 并 在 图 3. 25b Ale 中 简 述 过 。 第 一 个 方法 具有 进 
位 网 络 (Carry Network ，CN) ， 在 前 面 用 VHDL 描述 ( 见 3.7 节 和 图 3.25b， 其 中 
3.25a 中 的 实例 给 出 了 CN ) 。 第 二 个 方法 基于 LUT 电路 ， 如 图 3. 25c 所 示 ， 在 图 
3.25a 中 的 例子 中 x =3。 因 为 LUT(n,m) 可 以 执行 任何 变量 n 的 布尔 函数 ， 所 以 对 
于 任何 K <2"， 可 以 轻松 配置 类 似 的 电路 。 如 果 N 大 于 nm (或 者 只 大 一 点 点 ) ， 则 电 
路 可 以 按 图 3. 25d 建立 。NOR 门 a 测试， 如 果 在 汉 明 权重 的 MSB 中 没有 “1” 值 ， 
则 LSB PER ns AND 门 8 形成 比较 的 结果 。 目 前 多 数 可 用 的 FPGA 都 有 LUT (6, 
1)。 因 此 ， 可 以 选择 x «64 的 任何 值 。 如 果 k=64,， 则 LUT 可 以 用 LUT ERARA 
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存储 块 代替 〈 对 于 大 多 数 现代 FPGA ,9<n<15)。 因 为 所 有 的 存储 器 (所 有 分 布 
式 或 者 基于 LUT ARAB) 都 是 实时 配置 的 ， 所 以 图 3.25c 所 示 电 路 中 ，d 不 是 依 
HEREA (BII FK <2" 的 任何 值 ， 它 们 可 能 会 动态 定制 ) 。 

图 3.25b fll c 的 基于 LUT 电路 的 男 一 个 重要 特征 是 可 以 使 用 多 个 阔 值 。 例 如 ， 
ARE 是 低频 带 ， 另 一 个 国 值 cu 是 高 频带 。 我 们 将 在 后 面 章节 介绍 如 何 描述 
这 样 的 电路 。 

在 本 章 参 考 文献 [10] 中 ， 对 于 基于 排序 网 络 的 汉 明 权重 计数 器 /比较 器 《如 
本 章 参考 文献 【26] ) ， 器 件 的 数量 明显 大 于 计数 网 络 中 器 件 的 数量 ， 然 而 这 两 类 
器 件 实际 上 具有 相同 的 复杂 性 。 这 是 因为 对 比 排序 网 络 ， 计 数 网 络 中 水 平行 的 数量 
是 逐渐 减少 的 。 显 示 管 的 数量 和 最 佳 排序 网 络 显示 管 的 数量 一 样 ， 但 是 由 于 明显 减 
少 的 复杂 性 ， 在 微 芯 上 执行 的 计数 网 络 的 N 值 比 在 相同 微 芯 上 执行 的 排序 网 络 的 N 
值 大 [1 。 通 常 ， 计 数 网 络 可 以 视 为 本 章 参考 文献 [26, 28, 29] 和 本 章 参考 文献 
[25] 中 电路 之 间 的 桥 。 而 且 ， 一 方面 它们 看 起 来 像 排 序 网 络 ， 另 一 方面 它们 形成 








， 等 级 树 ( 见 图 3. 24b) ， 很 像 并 行 计数 器 55] 。 





如 果 依 赖 VHDL generate 语句 来 构建 可 调整 计数 网 络 ， 则 资源 和 延 时 可 能 比 本 
章 参考 文献 [25] 中 的 电路 更 糟 。 但 是 ， 这 有 更 好 的 方法 。 网 络 可 以 映射 到 FPGA 
LUT 上 ， 如 图 3. 26 所 示 ，N 216/79) , 
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图 3.26 映射 网 络 到 FPGA LUT 


图 3. 26 所 示 电 路 在 Nexys -4 原型 机 板 上 执行 和 测试 过 。 它 占用 八 片 FPGA, 
最 大 组 合 通路 延 时 为 4.7ns。 因 此 ， 它 比 3.7 节 的 电路 更 快 且 消耗 的 资源 更 少 。 但 
是 ,将 在 4.2 节 介 绍 一 个 更 好 的 方法 。 

如 果 按 位 操作 可 用 于 大 的 二 进 制 向 量 ， 则 网 络 可 能 更 经 济 。 例 如 ， 现 代 FPGA 
BUR ERA BCS f — bE (Digital Signal Processing, DSP), DSP 还 可 以 用 于 
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通用 FPCA。 例 如 , 在 Xilinx 7 系列 器 件 中 ， 每 片 器 件 可 配置 为 执行 两 个 48 位 向 量 
的 按 位 操作  。 因 此 ， 两 片 这 样 的 器 件 可 以 使 所 有 数据 的 独立 部 分 操作 组 合 执 
fT, Zik N =96。 这 个 可 用 于 网 络 不 能 用 于 并 行 计 数 。 但 是 ， 后 者 可 从 DSP 中 获 
ait, FAY DSP 的 48 位 操作 单元 可 分 为 更 小 的 数据 (每 个 数据 12 或 24 位 ) ， 所 以 
为 确保 所 有 数据 之 间 的 操作 独立 ， 数 据 之 间 的 内 部 进位 传播 被 阻塞 "2] 。 并 行 计数 
支持 这 个 特征 。 

网 络 的 管道 线 〈 见 图 3. 15) 和 并 行 计 数 (本 章 参考 文献 [10] 中 的 实例 ) 可 
以 找到 更 快 的 方法 。 但是， 上 述 电 路 的 延 时 很 小 ， 对 于 大 多 数 实际 应 用 不 需要 使 用 
加 速 器 ， 如 果 仍 然 需要 ， 则 可 以 使 用 本 章 参考 文献 【10] 的 结果 。 





3.9 SEF LUT 的 汉 明 权重 计数 器 /比较 器 的 设计 实例 


首先 执行 最 简单 的 汉 明 权重 计数 器 (Simplest Hamming Weight Counter, SHWC) , 
可 以 最 佳 映射 到 FPGA LUT 上 ， 然 后 把 SHWC 作为 构建 符合 任何 要 求 复杂 性 的 汉 明 
权重 比较 器 的 基础 。 而 且 会 分 析 基 于 已 知 HWC 构建 的 块 (如 FA) 来 评估 使 用 SHWC 
的 情况 。 显 然 , h 片 LUT (n, m) 可 以 用 于 计算 A= jag, cc, anat 的 汉 明 权重 ， 
其 中 h = [(log(n +1) )/m] o KE, h 片 LUT 可 用 于 SHWC。 理 论 是 构建 SHWC 网 
络 ， 用 于 计算 大 小 为 N 的 任意 向 量 的 汉 明 权重 。 图 3. 27 所 示 为 完整 的 方法 ( 即 
SHWC), 例如 n=6 和 N=36。 在 任何 层 ， 所 有 的 LUT 并 行 执行 大 量 逻 辑 操作 。 例 
如 ， 第 一 层 的 所 有 SHWC 在 输入 的 同时 计算 6 位 向 量 的 汉 明 权重 。 类 似 地 ， 在 第 二 
层 的 LUT (6, 3) 同时 输出 结果 ， 仅 一 个 LUT 延 时 。 

所 有 的 LUT 块 同 等 配置 。 任 何 块 CB SHWC) 计数 输入 的 6 位 向 量 的 汉 明 权 
重 ， 这 些 向 量 由 Csawc = [ (logo; (n * 1)/m) ] fr LUT(n,m) 组 成 。 图 3.27 所 示 电 
路 具有 Csawc x ([N/n] + [N/2/n]) Fr LUT(n,m) 。 即 使 m=1 (最 坏 的 情况 ， 即 
任何 在 FPGA LUT 上 执行 的 只 有 一 个 输出 ) ，n =6， 对 于 N =36 只 需要 27 H LUT, 
这 是 可 以 忽略 的 ， 因 为 ， 例 如 FPGA xc7a100t (用 于 实验 ) 具有 15850 片 器 件 ， 每 
片 器 件 具有 四 片 LUT 6，1) 。 但 是 ， 仍 需 执 行 形成 比较 结果 的 输出 块 。 图 3. 28 
所 示 为 基于 LUT 的 方法 。 

图 3. 28 中 有 两 个 电路 ， 第 一 个 〈 见 图 3. 28a) 从 图 3. 27 中 提取 输出 信号 at as， 
a3BıB2B3X1 xz xs ， 计 算 输 入 向 量 A= (ab, ce, als) 的 汉 明 权重 。 第 二 个 电路 
( 见 图 3.28b) 将 汉 明 权重 与 浆 值 K E, BE K 是 初始 载 人 到 LUT 中 的 (在 图 
3.28b 中 , K=15: 当 向 量 A 的 汉 明 权重 小 于 15 时， 输出 C "0", AMC 为 
“1”)。 如 果 重 新 配置 LUT 不 理想 ， 则 图 3. 28a 所 示 电 路 的 输出 连接 到 进位 网 
iKi], [83.28 具有 配置 所 有 的 LUT 的 初始 化 (INIT). 语句 。 图 3. 28a 所 示 电 路 
实际 上 是 多 位 加 法 器 〈 有 2 位 进位 信号 po 和 pi ) ， 增 加 了 下 面 三 个 向 量 : Daaa 
左 移 两 位 ; (CD)BipB2pB3 左 移 一 位 ; @@XiXzo 因为 向 量 aazas 具有 N4 个 值 4， 向 量 B， 
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图 3.27 完整 的 HWC, N=36 
pB2B3 有 N ^E 2, xxx A Ni 个 值 1( 见 图 3.27) ， 所 以 这 些 能 够 实现 。 在 最 后 
的 汉 明 权重 中 ， 值 aazas 必须 乘 以 4 〈 或 者 左 移 两 位 ) RB Bas 必须 乘 以 2 (或 
者 左 移 一 位 ) ， 这 些 都 在 移 位 操作 中 完成 。 显 然 ， 值 X: 可 以 直接 使 用 。 

对 于 N <36, —26 LUT 可 以 从 图 3. 27 中 的 电路 中 移 除 。 例 如 ， 当 N =32 时 ， 
左下 的 LUT 可 以 移 除 ， 行 a30a31 直接 连接 到 第 二 层 的 LUT。 这 个 改变 减少 了 LUT 的 
数量 ,但 电路 缺少 了 普 适 性 。 因 为 占用 的 LUT 数量 真 的 很 少 ， 所 以 最 简单 的 方法 
是 给 四 个 未 使 用 的 输入 赋值 0。 

如 果 LUT(n,m) 的 n<6， 则 可 以 类 似 地 建立 层次 结构 。 因 此 ， 如 果 n =5， 则 
需要 五 个 LUT 组 在 第 一 层 (每 个 组 处 理 五 个 信号 ) ， 然 后 三 个 组 在 第 二 层 (每 个 组 
也 处 理 五 个 信号 )。 最 后 ,与 图 3. 28 相同 的 电路 输出 结果 。 

图 3.27 和 图 3. 28 所 示 电 路 的 完整 可 综合 的 VHDL 设计 可 以 在 许多 可 用 的 基于 
FPGA 的 原型 机 板 中 测试 和 评估 ， 见 附录 B. 9 

值 N 较 大 的 HWC 的 一 般 结 构 同 图 3.27。N =216 的 实例 见 本 章 参考 文献 [3]. 

初步 分 析 表 明 上 述 基于 LUT 的 电路 、 并 行 计数 器 .51 和 计数 网 络 " ， 在 同时 
考虑 资源 和 性 能 中 是 最 佳 的 。 尝 试 通过 结合 不 同 的 设计 能 力 发 现 更 好 的 方法 。 图 
3.29 所 示 电 路 实现 了 这 样 的 组 合 ， 对 于 典型 的 LUT (6, 1) /LUT (5, 2), KA 
库 [31] 且 N=18。 左 边 的 任何 LUT 都 是 SHWC。 后 面 将 讲述 对 于 N=2s (g=5, 
6，…) 如 何 建立 类 似 的 电路 。 

在 图 3. 29 中 ， 全 加 器 FA1，FA2 和 FA3 计算 汉 明 权重 中 的 值 1 (Ni)、 值 2 
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(N,) 和 值 4 (Ns) 的 数量 。 例 如 ,输入 向 量 B= “101101_011111_110001”， 为 
了 方便 阅读 ,将 其 分 成 6 位 的 子 向 量 。 左 边 的 LUT 输出 下 面 的 三 位 向 量 “100 
(因为 子 向 量 “101101” 中 有 四 个 “1”),“101”( 因 为 在 子 向 量 “011111” 中 有 
五 个 “1”) ,“011”( 因 为 在 子 向 量 “110001” 中 有 三 个 “1”) 。FA1 ，FA2 fü FA3 
在 产生 的 3 位 向 量 中 计算 低位 、 中 间 位 和 高 位 的 和 ， 因 此 Ni = “O” + “1” 4 
“0 
= "IO" 81N,- “1” + "I" + "O" = “10”。 最 后 的 结果 是 “10”( 即 向 量 
“10” -N,) +“10”【( 即 向 量 “01” (N,) 左 移 一 位 ) + “1000” ( 即 向 量 
10” (Ny) 左 移 两 位 ) = “1100” 给 出 输入 向 量 B 的 汉 明 权重 1100; 或 者 1210。 
右边 的 LUT (6, 1) 和 配置 前 的 输入 值 比 较 并 输出 比较 结果 。 基 本 理念 类 似 上 述 
思想 〈 见 图 3. 27) ， 但 是 得 到 两 个 有 用 的 新 特征 : DD 现在 电路 可 以 由 3 调整 ， 既 不 
是 前 面 用 的 6 也 不 是 本 章 参 考 文献 [25] 中 用 的 2; QHWC 可 从 高 度 优化 的 算法 
电路 (通常 由 可 用 的 商用 FPGA 提供 ) 中 获 益 (如 FA)。 男 一 个 重要 的 特征 是 在 
FA 之 间 无 进位 信号 传播 ( 见 图 3. 29) 。 电 路 的 总 延 时 仅 由 两 片 LUT 和 一 个 FA 的 
延 时 组 成 。 
图 3. 29a RHR ALA IA KEE. CALS TS (XAR) 被 使 用 。 一 些 实 

例如 图 3.30 所 示 。 
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图 3.30 汉 明 权重 比较 器 
a) AER b) 上 界 和 下 界 c) 可 变 上 下 界 





图 3. 30a 所 示 为 最 常 使 用 的 具有 一 个 冰 值 的 比较 器 。 但 是 ， 也 可 以 指出 低频 和 
高 频带 ( 见 图 3.30b) 和 偶数 个 频带 ( 见 图 3.30c)。 这 样 的 特征 不 能 用 于 基于 并 
行 计数 器 的 HWCI2 1 。 

以 下 VHDL 代码 是 图 3. 29a 所 示 电 路 的 完整 可 综合 设计 : 


entity HammingWeightComparator is -- The code below has been tested for Nexys 
port ( Data in : in std logic vector (17 downto 0); — - the vector Bo,...,B in Fig. 
LedC  :outstd logic); ~ the result of comparison 


end HammingWeightComparator; 
~ names of the signals are the same as in Fig. 3.29 
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architecture Behavioral of HammingWeightComparatoris 

signal Upper, Middle, Bottom : std logic vector(2 downto 0); 
signal ToComp :Std logic vector(5 downto 0); 
begin 


LUT 6 3 upper: entity work.LUT. 6t03 
port map(Data in(17 downto 12), Upper); 


LUT .6 3 middle: entity work.LUT_6to3 


port map(Data in(11 downto 6), Middle); 
LUT. 6 3 bottom: entity work.LUT 6to3 


port map(Data in(5 downto 0), Bottom); 


LUT6 1 comp:entity work.LUT6 1 
port map (ToComp, LedC); 


FA generate: for i in 0 to 2 generate 
FA: entity work.FullAdder 
port map(Bottom(i), Middle(i), Upper(i), ToComp(2*i), ToComp(2"i-1)); 
end generate FA generate; 


end Behavioral; 


上 述 代 码 有 两 个 新 器 件 (LUT. 6103 fll LUT6 1), ， 将 它们 描述 如 下 : 


library IEEE; -- all necessary libraries are explicitly shown here because this 
use IEEE.STD LOGIC. 1164.all; -- code has to be directly copied to an example in Appendix B 
library UNISIM; -- (HammingWeightCounter36bits for N=36) 
use UNISIM.vcomponents.all; 
entity LUT 6to3 is -- Xilinx library UNISIM [31] for LUT primitives has to be included 
port ( Data in :in std logic vector (5 downto 0); — -- 6-bit input vector 
HW : out std logic vector (2 downto 0)); — the Hamming weight 


end LUT 6t03; 
architecture Behavioral of LUT 6to3 is 
begin -- for non-Kilinx FPGAs, constants can be used instead of the LUT primitives (see Sect. 2.8) 


LUT6 inst : LUT6 
generic map (INIT => X"fee8e880e8808000") -- LUT Contents 
port map (HW(2), Data_in(0), Data_in(1), Data_in(2), Data in(3), 
Data_in(4), Data in(5)); 


LUT6 inst2 : LUT6 
generic map (INIT => X'8117177e177e76e8") -- LUT Contents 
port map (HW(1), Data in(0), Data in(1), Data in(2), Data in(3), 
Data in(4), Data in(5)); 


LUT6 inst3 : LUT6 
generic map (INIT => X"6996966996696996") -- LUT Contents 
port map (HW(0), Data in(0), Data_in(1), Data_in(2), Data in(3), 
Data in(4), Data in(5)); 


end Behavioral; 


以 下 为 LUT6_1 需 件 代码 : 








entity LUT6_1 is ~ Xilinx library UNISIM [31] for LUT primitives has to be included 
port ( Data in :in std logic vector (5 downto 0); -- 6-bit input vector 
Comp : out std_logic); -- Comp is the result of comparison 
end LUT6_1; 
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architecture Behavioral of LUT6_1 is 
begin 
LUT6_inst0 :LUT6 -- this LUT is used just for the final comparator (see the right-hand LUT in Fig. 3.292) 
-- LUT Contents for the upper bound 10 and for the lower bound 4: (0-3: 1; 4-10: 0; 10-17: 1) 
generic map (INIT => X"ffffffícíCO0003f") -- configuring such LUTs is explained in Appendix B 
port map (Comp, Data in(0), Data in(1), Data in(2), Data in(3), 
Data in(4), Data in(5)); 

end Behavioral; 

上 述 代码 综合 得 到 的 电路 用 于 Artix -7 FPGA (Nexys -4) 时 ， 有 最 大 组 合 通 
路 ， 延 时 为 2. Sns， 占 用 六 片 巡 辑 器 件 。 

图 3. 29 中 的 HWC 容易 修改 为 其 他 N 值 。 图 3. 31a 给 出 了 N = 15 的 实例 ,图 
3.31b 所 示 为 N=16。 图 3.31a 所 示 电 路 仅 占 用 了 三 片 Artix -7 FPCA， 这 样 的 电路 
的 完整 可 综合 的 VHDL 描述 见 附录 B。 对 于 6 <N <15 ， 一 些 输 入 可 以 接 0。 显 然 对 
FNS6, RA SHWC 是 足够 的 ( 见 图 3.27)。 
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e, a Fe —g^i composed of 3 
& j| UEA —R^| . LUT(61) 
& 2 Weg n EM è 
[ir SE at Het | EM eas 
电路 占用 三 片 电路 占用 五 片 
Artix-7FPGA, Artix—7FPGA, 
最 大 组 合 路 径 最 大 组 合 路 径 
延 时 为 2.5ns 延 时 为 2.5ns 
a) b) 
图 3.31 汉 明 权重 比较 器 
a) N=15 b) N=16 


N 值 更 大 的 HWC 可 以 从 图 3. 29 和 图 3.31 中 的 HWC (连接 一 些 其 他 的 基于 
LUT 的 电路 (如 SHWC)) 中 创建 ,最 后 增加 FA。 例如， 图 3. 32 所 示 为 基于 图 
3. 31a 所 示 电 路 的 方法 ，N 232, SRA fll B 是 图 3.31a 所 示 电 路 ， 其 中 右边 的 LUT 
(6, 1) (在 图 3.29 中 描述 过 ) H LUT (6, 4) 代替 ， 输 出 15 位 输入 向 量 的 4 位 
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汉 明 权重 。 块 C PEIRA AB 高 位 (MSB) 的 和 , 块 D 产生 块 A 和 B 低 位 (LSB) 
的 和 。 因 为 块 D 输出 的 最 大 值 为 6〈 即 115 +11, =110 264), ， 所 以 可 以 增加 一 个 
输入 位 B3o。 现 在 最 大 值 变 成 7 (EP110, +1, 27,9), ， 输 出 的 数量 一 样 〈 即 3) 。 








Data_in(30) 
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10011, = 194, + Bao 


(HW15_2 = 13) +(HW15_1 =6) = 19 


Di 














30 位 二 进 制 向 量 






图 3.32 汉 明 权重 比较 器 ，N =32 


DRC 的 输出 代表 值 4 在 汉 明 权重 中 的 数量 〈 另 外 的 细节 和 解释 见 附 录 A 和 
B)。 最 后 ,， 块 上 输出 比较 结果 。 看 一 下 图 3. 32 所 示 实 例 。 假 设 块 A 和 B 各 自 输出 
值 1101 和 0110， 高 位 用 粗 体 表现 ， 加 入 到 块 C， 则 得 到 结果 100 (11 +01 =100), 
代表 四 个 “4”。 块 D 输 出 011 ( 即 01+10=011) 加 上 位 Bao 的 值 。 如 果 Bo =0， 
则 比较 器 的 数量 为 100011 ， 对 应 十 进 制 值 19 (四 个 “4” 加 三 个 “1”)。 如 果 Bso 
=1， 则 比较 器 的 数量 为 20。 显 然 ， 基于 LUT (6, 1) 创建 的 块 下 可 以 轻松 产生 
31 位 向 量 B = | Bo, t Bigs Biss c. Bos, B3, | 的 比较 结果 。 基 于 LUT (6, 
4) BERI E IH B 的 汉 明 权重 。 如 果 使 用 32 位 向 量 ， 则 块 增加 位 By3，( 见 图 
3.32) 。 显 然 ，LUT 需要 更 多 的 FPGA 原 语 ， 现 在 是 LUT (7, 4)。 

图 3. 32 所 示 电 路 的 完整 可 综合 的 VHDL 代码 见 附 录 B。 对 于 更 大 值 N 的 测量 ， 
做 法 类 似 。 


3.10 向 量 操作 的 设计 实例 


假定 有 N 个 已 排序 的 数据 子 集 (如 由 图 3. 5 中 排序 器 产生 的 ) ， 最 终 这 些 数据 
子 集 中 具有 重复 的 数据 ， 然 后 需要 找到 重复 频率 最 高 的 数据 。 本 章 参考 文献 9] 
提出 了 针对 此 问题 的 可 行 性 方案 ， 如 图 3.33 所 示 ， 其 中 N -1 个 比较 器 形成 二 进 
制 向 量 。 如 果 在 向 量 中 找到 连续 最 大 数量 ， 则 可 以 发 现 重 复 频率 最 高 的 数据 ， 然 后 
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从 比较 器 〈 该 比较 器 形成 了 具有 连续 最 大 数量 的 子 向 量 ) 的 任何 输入 中 取出 该 
数据 。 



































Item N-1 

















图 3.33 频繁 数据 在 给 定 已 排序 数据 集中 计算 


二 进 制 向 量 代 表 比 较 结果 ， 保 存在 反馈 寄存 器 R 中 。 图 3. 33 右边 的 电路 执行 
上 述 方法 ( 见 3.5 节 、3.6 节 和 图 3.14、 图 3.17), 使 相同 的 组 合 单 元 (如 由 图 
3.33 中 的 AND 门 组 成 的 ) 在 每 个 顺序 时 钟 周 期 内 迭代 使 用 。 这 个 迫使 任何 中 间 二 
进 制 向 量 ， 即 在 AND 门 的 输出 上 形成 的 向 量 在 寄存 器 R 中 排序 。 因 此 ， 任 何 新 的 
时 钟 周期 都 会 使 向 量 中 的 连续 最 大 数量 OLET, 一 旦 AND 门 的 所 有 输出 置 0， 就 
可 以 得 出 结论 On = +1， 其 中 点 是 最 后 的 时 钟 周期 数 。 而 且 ， 当 寄存 器 R 中 只 
有 一 个 值 1 时 ，AND 门 的 所 有 输出 置 0， 不 需要 增加 时 钟 周期 来 得 到 结论 。 寄 存 器 
中 的 1 的 索引 是 第 一 个 值 1 的 索引 (位置 )， 在 集中 用 0 表示 。AND 门 输出 的 反 
馈 使 任何 中 间 二 进 制 向 量 在 寄存 器 R 中 被 排序 。 并 不 是 所 有 的 门 完 全 重复 使 用 。 
在 第 一 步 有 N -1 个 激活 门 。 在 每 个 后 续 时 钟 中 ， 这 样 的 门 的 数量 会 减少 ， 因 为 较 
低 的 门 被 0 阻 断 ， 并 写 和 人 到 寄存 器 R 的 底部 。 在 每 个 新 时 钟 周期 ，0 总 是 传播 到 较 
高 位 置 然后 阻 断 男 一 个 门 。 图 3. 33 所 示 电 路 非常 简单 迅速 ， 仅 由 N -1 个 AND 门 、 
寄存 器 R 和 最 小 补充 逻辑 组 成 。 因 此 最 大 可 获得 时 钟 频率 很 高 。 

以 下 VHDL 代码 描述 图 3. 33 中 电路 的 一 部 分 (灰色 表示 )。 其 他 部 分 可 使 用 
3.4.1 节 的 实例 执行 ， 例 如 实体 Even0ddMerge8S$ort ， 或 者 附录 B 中 的 实体 EvenOd- 
dMergel6Sort) 和 3.5 节 ( 见 实体 EvenOddTransitionlterative ) 。 
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entity SucOnesEncounter is -- this project has been tested in the Atlys board 
generic ( N ‘integer := 48 ); — -- number of bits in the binary vector (see Fig. 3.33) 
port ( clk : in std logic; 
EppAstb :in std. logic; ~ for the component lOExpansion from Digilent 


EppDstb : in std_logic; 

EppWr : in std logic; 

EppDB .:inoutstd logic vector(7 downto 0); 
EppWait : out std logic); 





end SucOnesEncounter; 
architecture Behavioral of SucOnesEncounter is 
signal MyLed :Std logic vector(7 downto 0); 
signal MyLBar :sid logic vector(23 downto 0); 
signal MySw : std_logic_vector(15 downto 0); 
signal MyBIn : std_logic_vector(15 downto 0); 
signal data_to_PC :std logic. vector(31 downto 0); 
signal data from PC : std_logic_vector(31 downto 0); 
signal max number of successive ones : integer range 0 to N; 
signal max number : integer range 0 to N; 
signal vector with ones, new vector : Std logic vector(N-1 downto 0); 
signal Reg : std logic vector(N-1 downto 0); 
begin i 


MyLBar <= MyBtn & data_from_PC(7 downto 0); -- these two lines are for tests only 
MyLed <= data_from_PC(31 downto 24); -- and can be removed 
data to PC <=conv_std_logic_vector(max_number_of_successive_ones, 32); 


process (Reg) - this process describes AND gates and feedback to the register in Fig. 3.33 
begin -- this process is combinational 


for i in 0 to N-2 loop — new. vector is formed on outputs of AND gates in Fig. 3.33 
new vector(i) <= Reg(i) and Reg(i*1); 
end loop; -- the register changes its state in the next sequential process 
new vector(N-1) <= '0'; -- the bottom bit is always zero (see Fig. 3.33) 
end process; 


process(clk) 
begin -- this process is sequential 
if rising_edge(clk) then 


if ((data_from_PC = 0) and (MySw = 0)) then -- there are no ones in input binary vector 
max number of successive ones «- 0; -- thus, the number of ones is zero 
else Reg <= data from PC & MySw; -- a vector is taken from virtual window 


max number <= 1; -- since the vector is not zero then there is at least one value one 
if new vector /= 0 then 
-- if a new vector is not zero then the number of ones has to be incremented 
Reg <= new vector; 
max number <= max number-*1; 
else max number of successive ones «- max number; 
end if; 
end if; 
end if; 
end process; 
IO interface : entity work.IOExpansion 
port map(EppAstb, EppDstb, EppWr, EppDB, EppWait, MyLed, MyLBar, 
MySw, MyBtn, data from. PC, data to PC); 


end Behavioral; 


123 





e 基于 FPGA 的 系统 优化 与 综合 3 


从 虚拟 窗口 获得 新 向 量 (从 To FPGA 区 域 和 虚拟 Switches), 。 结 果 可 在 虚拟 区 
HÈ From FPGA 看 到 ( 见 1.7 节 和 图 1.27)。 
以 下 代码 已 经 在 Nexys -4 板 中 测试 过 : 


entity SucOnesEncounter is 


generic ( N : integer := 16 ); 
port ( clk :in std logic; 
sw : in std logic vector(15 downto 0); — binary vector from 16 switches 
led : out std logic vector(4 downto 0)); — the result on LEDs 


end SucOnesEncounter; 
architecture Behavioral of SucOnesEncounter is 


signal max number of successive ones — : integer range 0 to N; 

signal max number : integer range 0 to N; 

signal vector with ones, new vector : Std logic vector(N-1 downto 0); 
signal Reg :std logic vector(N-1 downto 0); 
begin 

process (Reg) 

begin 


for iin 0 to N-2 loop 
new vector(i) <= Reg(i) and Reg(i*1); 
end loop; 
new. vector(N-1) <= '0'; 
end process; 
process(clk) 
begin 
if rising_edge(clk) then 
if (sw=0)then ^ max number of successive ones <= 0; 
else Reg <= sw; max number <= 1; 
if new vector /= 0 then 
Reg <= new vector, max number <= max number*1; 
else max number of successive ones «- max number; 
end if; 
end if; 
end if; 
end process; 


led <= conv std logic vector(max number of successive ones, 5); 
end Behavioral; | 


与 前 面 的 实例 很 像 ， 上 述 代 码 可 以 同等 地 在 ISE 或 者 Vivado (1.5 节 最 后 的 内 
F) 中 综合 和 执行 。 唯 一 的 不 同 就 是 所 提供 的 约束 文件 (对 于 ISE 提供 UCF, Xf 
于 Vivado 提供 XDC)。 网 址 http: //sweet. ua. pt/skl/springer2014. html 提供 的 所 有 
实例 都 可 用 于 ISE， 多 数 可 用 于 Vivado。 

从 3.4 节 开始 ， 描 述 了 不 同类 型 的 基于 FPGA 的 进程 ， 其 支持 板 集 并 行 机制 。 
许多 其 他 的 电路 和 系统 可 从 高 度 并 行 执行 中 获 益 ， 其 可 在 FPGA 中 实现 ， 但 很 难 用 
于 一 般 用 途 和 特殊 用 途 的 处 理 器 ， 这 些 处 理 器 具有 一 些 限制 ， 比 如 操作 数 的 大 小 ， 
限制 并 行 处 理 核 的 数量 和 预定 义 指 令 集 。 注 意 基 于 处 理 器 的 技术 仍然 有 许多 优 于 
FPGA 的 优势 ， 特 别 是 需要 解决 复杂 问题 时 。 例 如 ， 广泛 使 用 的 用 于 解决 布尔 可 满 
足 性 问题 的 系统 ， 仍 然 优 于 在 一 般 用 途 的 计算 机 中 执行 。 但 是 ， 解 决 一 些 布尔 可 满 
足 性 问题 需要 的 较 低 级 的 任务 ， 可 能 在 FPCA 中 更 有 优势 ， 特 别 是 在 本 章 参 考 文献 
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[32] 中 。 这 种 频繁 探索 的 问题 如 流 处 理 ， 通 常 部 分 在 硬件 中 处 理 〈 如 执行 排序 网 
络 ) ， 部 分 在 软件 中 处 理 〈 如 合并 已 排序 的 子 集 )。 因 此 ， 将 一 般 用 途 或 特殊 应 用 
的 软件 和 在 重新 配置 逻辑 中 执行 硬件 加 速 器 组 合 是 比较 实用 的 。 后 者 打算 这 样 使 
用 ， 人 允许 软件 的 耗 时 操作 (最 好 执行 在 FPGA 硬件 中 ) 加 速 。 在 后 面 的 章节 中 将 
讨论 这 样 的 问题 。 
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述 了 用 数字 信号 处 理 器 件 组 建 的 算术 电路 和 提供 支持 数据 缓冲 (4o FIFO) 的 参数 
化 内 存 模块 。 后 续 将 给 出 数字 信号 处 理 器 件 的 更 多 细节 ， 而 且 讲 明 可 在 特定 的 电 
路 ， 如 汉 明 权重 计数 器 /比较 器 中 高 效 使 用 。 本 章 主 要 致力 于 主机 和 基于 FPGA 原 
型 机 板 的 通过 Digilent 增强 平行 接口 和 UART (通用 异步 接收 传输 接口 ) 接口 的 互 
动 。 涉 及 通信 模板 的 全 部 细节 ， 包 括 用 于 通用 计算 机 的 用 C + + 语言 编写 的 软件 和 
用 于 FPGA 的 硬件 。 后 续 章 节 将 使 用 为 工程 设计 的 模板 ， 该 工程 涉及 不 同 目的 的 互 
动 。 对 于 第 3 章 的 基于 网 络 选 代 的 数据 排序 ， 以 这 种 方式 作为 功能 完整 的 例子 执行 
和 测试 。 本 章 简 要 描述 PSoC， 即 组 合 误 入 处 理 系统 和 可 重 构 还 辑 ， 可 以 更 高 效 地 
应 用 执行 。 给 出 并 讨论 映射 第 3 章 的 设计 到 PSoC 的 建议 。 


4.1 PRE 


知识 产权 (Intellectual Property, IP) 芯片 是 提前 配置 的 模块 ， 可 以 用 于 设计 
中 。 例 如 ，Xilinx ISE 提供 广泛 的 卫 选 择 ， 对 于 内 存 器 Ck ASR ASD BS . CE 
言 号 处 理 、 数 学 函数 、 总 线 接口 和 分 布 时 钟 等 。 在 Xilinx CORE Generator ™ TAH H 
帮助 下 ， 可 以 选择 和 定制 时 钟 并 附 到 设计 中 。 本 章 的 例子 用 于 说 明 如 何在 第 3 章 的 
设计 中 使 用 全 ats 

第 一 个 例子 涉及 如 何 将 基于 DSP 的 加 - 减 包含 到 工程 中 。 工 程 在 Xilinx ISE 
14. 7 中 创建 ， 将 命名 为 arithmetic 、 类 型 为 IP 芯片 的 新 资源 加 到 数学 函数 和 加 — 减 
组 。 这 里 要 求 使 用 DSP48 (对 于 Xilinx FPGA 可 用 ) 、8 位 无 符号 操作 数 、9 位 结 
果 、 加 减 模板 、 延 时 0 和 信号 中 的 高 电 平 有 效 进位 信号 。 之 后 ，IP 核 产 生 并 包含 
到 以 下 工程 中 (映射 根据 ISE HDL 示例 模板 中 所 给 细节 完成 ) : 


entity TopForlnteractingWitlPCores is 
port( Sw  :in std logic vector (15 downto 0); 
mode : in std logic; -- the BTNC button is used (for addition it has to be pressed) 
led  :outstd logic vector (8 downto 0) ); 
end TopForlnteractingWitlPCores; 


architecture Behavioral of TopForlnteractingWitlPCores is 
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begin 
Arith: entity work.arithmetic 
port map (a => Sw(15 downto 8), b => Sw(7 downto 0), add => mode, 
c in => '0', s => led); 
end Behavioral; 


Al 4. 1a 所 示 为 工程 的 结构 。 文 件 arithmetic. xco 由 Xilinx CORE Generatior 创 
建 。 图 4. 1b 所 示 为 如 何在 Nexys -4 板 中 测试 工程 。 左 边 的 8 位 开关 为 操作 数 a, 
右边 的 8 位 开关 为 操作 数 b。 结 果 用 九 个 LED 显示 。 通 过 BTNC 按钮 选择 模式 (如 
果 按 钮 按 下 则 模式 为 加 ， 如 果 按 钮 没有 按 下 则 模式 为 减 )。 在 图 4.1b A, a = 
00001111, 215,,, b 200001011; =1116。。 因 此 ， 如 果 按 下 BTNC， 则 a+b =26io = 
000011010，( 见 图 4. 1b) 。 如 果 没 有 按 下 BINC, Jl] a-b =4,) =000000100,, ASL 
在 Nexys -4 板 中 轻松 检测 。 电 路 占用 0 个 逻辑 器 件 ， 一 个 DSPASEI 器 件 〈 从 240 
片 中 选择 ) 。 类 似 的 工程 可 在 Atlys prototyping board 中 创建 和 测试 。 



































BR e 、 
BTNC 
按 下 (加 法 ) A 
3 D] xc7a100t-3csg324 E " : e 
=] TopForlnteractingWithlPCores idi ooooe 
* Arith — arithmetic (arithmetic.xco) eo 
Po gs Basan add RR 
lSw15 Sw8] Sw7 Swo | 
"m xa 操作 数 b 
a) b) 


图 4.1 a) 有 了 * 核 的 工程 结构 b) 示范 

以 下 例子 将 IP 核 用 于 乘 操 作 ， 可 从 Math Functions 的 ISE group 中 的 Multipliers 
中 取出 。 图 4. 2a 所 示 为 工程 的 结构 。 文 件 Multiplier. xco 由 Xilinx CORE Generator 创 
建 。 这 个 工程 将 使 用 Nexys -4 的 八 段 显示 器 。 显 示 由 两 个 器 件 (EightDisplayControl 
和 segment - decoder) 管理 (VHDL 代码 见 附录 B)。 工 程 ( 见 图 4.2a) 也 使 用 器件 
BinToBCD8 和 BinToBCD16， 即 将 8 位 和 16 位 二 进 制 向 量 转换 为 相应 的 BCD 码 ， 在 段 
显示 器 中 显示 十 进 制 数 时 需要 BDC 码 。 这 个 器 件 的 VHDL 代码 也 见 附录 Bo 

工程 在 Xilinx ISE 14.7 中 创建 ， 将 命名 为 Multiplier, 2878 Jy IP 核 的 新 资源 加 
入 到 Math Function 和 Multipliers 中 。 这 里 要 求 使 用 DSP48 、8 位 无 符号 操作 数 和 16 
位 结果 。 之 后 ， 产 生 IP 核 并 包括 到 工程 中 如 下 (和 之 前 一 样 ， 映射 根据 ISE HDL 
示例 模板 中 的 细节 完成 ) : 








entity TopForlnteractingWitlPCores is -- this project is for the Nexys-4 board 
port ( clk :in std logic; 
Seg :out std logic vector(6 downto 0); — -- segments 
sel disp : outstd logic vector(7 downto 0); — -- display selections 
Sw :in std logic vector (15 downto 0); -- onboard switches 
BTNC : in std logic; -- onboard BTNC button 
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图 4.2 a) 具有 人 * 核 的 工程 的 结构 b) 举例 c) 简化 器 件 图 


end TopForlnteractingWitlPCores; 


architecture Behavioral of TopForlnteractingWitlPCores is 


signal BCD4, BCD3, BCD2, BCD1, BCD0 :std logic vector(3 downto 0); 
signal BCD2 L, BCD1 L, BCD0 L : Std_logic_vector(3 downto 0); 
signal BCD2 R, BCD1 R, BCDO_R :std logic vector(3 downto 0); 
signal BCD3 D, BCD2 D, BCD1 D, BCD0 D :Std logic vector(3 downto 0); 
signal BCD7 D, BCD6 D, BCD5 D, BCD4_D :std logic vector(3 downto 0); 
signal To BCD : Std logic vector(15 downto 0); 


begin -- see the simplified components diagram in Fig. 4.2c 
Mult: entity work.Multiplier -- DSP-based multiplier 

port map (a=>Sw(15 downto 8), b-»Sw(7 downto 0), p=>To_BCD); 
DispCont: entity work.EightDisplayControl  -- display controller (see Appendix B) 


port map(clk, BCD7. D, BCD6 D, BCD5 D, BCD4 D, BCD3 D, BCD2 D, 
BCD1 D, BCDO0 D, sel disp, seg); 


binTO_BCD1: entity work.BinToBCD8 -- binary to BCD converter (see Appendix B) 
port map (clk, reset, open, Sw(15 downto 8), BCD2 L, BCD1 L, BCDO L); 


binTO_BCD2: entity work.BinToBCD8 -- binary to BCD converter (see Appendix B) 
port map (clk, reset, open, Sw(7 downto 0), BCD2_R, BCD1_R, BCDO R); 


binTO BCD3: entity work.BinToBCD16 — binary to BCD converter (see Appendix B) 
port map (clk, reset, open, To BCD, BCD4, BCD3, BCD2, BCD1, BCD0); 
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process(BTNC, BCD4, BCD3, BCD2, BCD1, BCD0， -- combinational process 
BCD2_L, BCD1_L, BCDO L, BCD2_R, BCD1 R, BCDO R) 
begin -- this process selects either operands (if BTNC=0) or the result (if BINC=1) to display 
BCD7 D <= (others => 0); BCD6 D <= (others => '0’); 
BCD5 D <= (others => '0'); BCD4 D <= (others => '0'); 
BCD3 D <= (others => '0); BCD2 D <= (others => '0' 
X 


iF 
BCD1_D <= (others => '0'); BCDO D <= (others => '0'); 


if (BTNC = 0) then -- display mode selection 
BCD7 D <= (others => 0); BCD6 D <= BCD2 L; 
BCD5 D <= BCD1 L; BCD4 D <= BCDO L; 


BCD3 D <= (others => '0); BCD2 D <= BCD2 R; 
BCD1 D «- BCD1 R; BCDO D <= BCDO R; 

else BCD7 D <= (others => '0); BCD6 D <= (others => '0'); 
BCD5 D <= (others => '0); BCD4 D <= BCD4; 


BCD3 D «- BCD3; BCD2 D «- BCD2; 
BCD1 D <= BCD1; BCDO D <= BCDO; 
end if; 


end process; 
end Behavioral; 


图 4. 2b 所 示 为 如 何在 Nexys -4 板 中 测试 工程 。 左 边 的 8 位 开关 为 操作 数 a, 
右边 的 8 位 开关 为 操作 数 b。 结 果 转 换 为 BCD 码 ， 然 后 在 段 显 示 希 上 显示 《〈 见 图 


4.2b)。 如 果 没 有 按 下 BTNC 按钮 ， 则 a 的 十 进 制 值 显示 在 段 显示 天 的 左边 4 位 ,pb- 





的 十 进 制 值 在 段 显示 器 的 右边 4 位 〈 见 图 4.2c) WREEF BTNC 按钮 ， 则 结果 的 
十 进 制 值 显示 在 8 位 段 显示 器 〈 见 图 4.2b)。 电 路 占用 63 片 逻辑 器件 (从 15850 
片 可 用 器 件 中 ) 和 一 片 DSP48El。 类 似 的 工程 可 在 Auys 原型 板 中 创建 和 测试 。 

这 里 不 讨论 如 何 控制 段 显 示 器 ， 在 本 章 参考 文献 [1] 中 已 经 详细 讲 过 。 二 进 
制 转换 为 BCD 码 的 执行 算法 在 本 章 参考 文献 【2] 中 讲 过 ， 在 本 章 参考 文献 [3 ] 
中 基于 VHDL 代码 。 唯 一 的 区 别 是 即时 通信 不 需要 额外 的 曾 在 本 章 参 考 文献 【2， 
3] 中 使 用 过 的 信号 。 这 意味 着 一 旦 转换 器 的 输入 改变 ， 经 过 一 点 时 钟 周 期 延 时 就 
能 输出 结果 。 因 为 通过 视觉 检测 结果 ， 这 样 的 延 时 不 会 造成 任何 问题 ， 有 转换 顺 的 
接口 变 得 简单 。 如 图 4. 2 所 示 ， 乘 法 的 结果 是 00001111, x 00001011, = 10100101, 
(二 进 制 码 ) 转换 为 (通过 图 4.2c 中 的 binTO_BCD3 器 件 ) 三 个 最 低 有 效 位 的 
BCD 码 0001,，0110; 和 0101，。BCD 码 可 以 直接 译 码 为 十 进 制 码 并 给 出 结果 165。 
五 个 最 高 有 效 位 的 数字 是 0000; ， 给 出 了 五 个 十 进 制 0 并 显示 在 左边 的 段 显 示 天 中 
( 见 图 4. 2b) 。 对 于 所 有 使 用 的 器 件 ， 完 整 的 VHDL 代码 见 附录 Bo 

以 下 例子 将 讲述 如 何 构建 基于 和 马 人 存 器 的 FIFO (First Input First Output). 模 
块 。 第 一 个 工程 的 简化 器 件 图 如 图 4. 3 所 示 。 

工程 在 Xilinx ISE 14.7 中 创建 ， 将 命名 为 FIFO_mem、 类 型 为 IP 核 的 New 
Source 加 入 到 Memories&Storage Elements 和 FIFO 组 中 。 对 于 RAM 模块 ， 这 里 要 求 
使 用 独立 的 读 / 写 时 钟 和 写 / 读 数据 计数 片 ， 写 带宽 为 8 ， 写 深度 为 644 ， 读 带宽 为 
32， 读 深度 为 16。 注 意 输 入 带宽 (8 位 ) 不 同 于 输出 带宽 (32 位 )。 最 后 ，IP 核 
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eu A L 
(100 MHz) 






以 十 六 进 制 显示 从 
FIFO 读 取 的 32 位 向 量 
显示 控制 


Random FIFO | DispCont 
当 BTNC 按 下 时 读 取 


图 4.3 ”测试 FIFO 存储 器 


生成 并 包含 到 工程 中 如 下 : 
entity TestFIFO is -- Fig. 44 demonstrates how to test this project 
generic (data in size : integer := 8; -- width of FIFO input data 
data out size : integer := 32); ^ -- width of FIFO output data 
port( clk : in std logic; -- dock 100 MHz 
led full :outstd logic; — -- ON if FIFO is full 
led empty :out std_logic; ^ -- ON if FIFO is empty 
led rd data count : out std logic vector (3 downto 0); 
led wr data count : out std logic vector (5 downto 0); 
led div. clk :outstd logic; ^ --low frequency dock (~| Hz) 
seg : out std logic vector(6 downto 0); 
sel disp : out std logic vector(7 downto 0); 
BTNC :in std logic); ^ -- to read data from FIFO 
end TestFIFO; 
architecture Behavioral of TestFIFO is 
signal divided clk : std logic; ~ low frequency clock (—1 Hz) 
signal random 8bit :Std logic vector(data in size-1 downto 0); 
signal wr en : std_logic; -- write enable to FIFO 
signal rd en : std logic; -- read enable from FIFO 
signal to_rg : Std_logic_vector(data_out_size-1 downto 0); 
signal full : std logic; -- FIFO is full 
begin 
led_div_clk <= divided clk; 
led_full <= full; 
enables gen: process(full, BTNC) -- support for FIFO write/read modes 
begin 
if (full /= '1') then wr en <= '1'; -- if FIFO is not full then new data can be written 
else wr en <= '0*; end if. 
if (BTNC = 1) then rd en <= '1'; -- data are read from FIFO when BTNC is pressed 
else rd en <= '0'; end if; 
end process enables gen; 
FIFO: entity work.FIFO mem -- see Fig, 4.5 


port map (wr_clk => clk, rd_clk => divided_clk, din => random_8bit, 
wr_en => wr_en, rd_en => rd_en, dout => to_rg, full => full, 
empty => led empty, rd data count => led rd data count, 
wr. data count => led wr data count ); 


Random: entity work. RanGen -- the code is available in Appendix B 
generic map(width => data in size) 
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port map (clk, random_8bit); 


DispCont: entity work.EightDisplayControl -- the code is available in Appendix B 
port map(clk, to_rg(31 downto 28), to_rg(27 downto 24), to_rg(23 downto 20), 
to_rg(19 downto 16), to_rg(15 downto 12), to_rg(11 downto 8), 
to rg(7 downto 4), to rg(3 downto 0), sel disp, seg); 


div: entity work.clock divider -- the code is available in Appendix B 
port map( clk, '0', divided clk); 


end Behavioral; 

这 个 工程 可 以 在 Nexys -4 板 中 测试 ， 如 图 4.4 Pras. 3$ FIFO 没有 满 时 ， 进 程 
enable_gen 使 能 写 功 能 ， 当 BTNC 按 下 时 使 能 读 功 能 。 当 BTNC 按 下 时 ， 从 随机 数 
发 生 器 中 将 数据 写 入 FIFO 〈 见 附录 B 中 的 VHDL 代码 ) DA FIFO 中 读 取 数据 并 显 
示 在 八 个 7 段 显示 器 上 ， 如 图 4. 5 所 示 。 输 出 向 量 分 为 八 个 4 位 段 ， 十 六 进 制 码 对 
应 每 个 段 显示 在 关联 显示 器 (最 高 有 效 位 关联 最 低 有 效 位 ) 。 


BTNC 
plu ait 


OOOOOOOOO000 000 0 i 
— 


读 取 的 数据 量 : 
led_rd_data_count 


a 


写 入 的 数据 量 :led_wr_data_count 


led_full NE 


FIFO is full: 
FIFO is empty: 
pty 


AD 
I 
ET 
E 
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g 


图 4.4 测试 具有 FIFO 存储 器 的 工程 





WEINE Bb: rd. cik : agers EM enables gen: 
(in the example 1 Hz) 读 使 能 :rd_ene- \ process(full, BTNC) 











\ begin 
8 位 带宽 输入 数据 : M if (full /= '1') then 
8 位 带宽 输入 数据 :wr_clk data: dout(31:0) ee wr. en <='1'; 
(in the example 100 MHz) 写 入 多 少数 据 : Led7 X else wr_en <= 0% 


end if; 











Write data , \ \ 
gt enable: wr en Mr ctas rount (5:0) es S T (BTNC = '1') then \ 
Sit A MIR: 读 取 多 少数 据 : x Wee rd_en<='1'; X 
din(7:0) rd_data_count (3:0) else rd en <= '0'; j 
end if; 
E Led3,Led2,Led1,LedO end process enables rj 
ree FIFO is Jy Z3: empty > Led14 9 


FIFO 为 满 :full —> Led15 a 


图 4.5 FIFO 存储 器 界面 


本 节 附 加 的 两 个 工程 讲述 了 如 何 连接 FIFO 内 存 器 和 32 位 汉 明 权重 计数 器 的 输 
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入 ( 见 3.9 节 ) 以 及 图 3.5 的 排序 网 络 。 


如 下 代码 行 ( 见 附录 B): 
HW led <= (“00000" & to_rg(data_out_size-1)) + (‘0' & bits4 0); 


图 4.6 所 示 为 关于 随机 数 3103060CG (包含 八 个 “1”) 显示 在 LED 上 的 例 


f, 001000, =810。 





(100 MHz) 





Clock se 一 一 一 "div T 
(100 MHz) 「 ”上 时钟 os 
分 频 器 


约 1Hz 


图 4.6 简化 器 件 图 ， 连 接 汉 明 权重 计数 器 和 FIFO 存储 器 的 工程 实例 


高 频 写 入 AN O Ledl4 





empty 














-一 一 了 
如 果 BTNC 
q 按 下 则 读 取 


Led10 
d9 


HW_led 8 "ones" 


第 一 个 工程 的 简化 絮 件 图 如 图 4.6 所 示 o 
一 旦 32 位 向 量 在 FIFO 的 输出 可 用 ,实体 HW31_HWC32 便 计算 31 位 向 量 的 汉 明 
权重 ,并 显示 在 五 个 LED (Led), + ，Led5) 上 。 和 输入 向 量 的 最 高 有 效 位 加 入 


(-1Hz) DispCont 当 BTNC 按 下 时 ， 以 十 六 
进 制 显示 从 FIFO 读 取 的 32 位 向 量 


^B IL ct 


cim IM 





以 下 VHDL 代码 描述 图 4. 6 所 示 电 路 的 功能 


entity TestFIFO is 
generic (data_in_size 
data_out_size 
port ( clk 
led full 
led empty 
HW led 
LedC 
led div clk 
seg 
sel disp 
BTNC 
end TestFIFO; 


architecture Behavioral of 


signal divided clk 
signal random 8bit 
signal wr en 
signal rd en 
signal to rg 

signal full 

signal bits4 0 


begin 


~ the project was tested in the Nexys-4 board 


: integer := 8; 

: integer := 32); 

: in std logic; -- system dock is 100 MHz 
: out std logic; -- ON if FIFO is full 


:outstd logic; —— -- ON if FIFO is empty 
: out std logic vector (5 downto 0); -- 6-bit Hamming weight 


:out std_logic; ^ -- the result of comparison (see appendix B) 

:outstd logic; ^ -- low frequency dock (~1 Hz) 

: out std logic vector(6 downto 0); — -- see appendix B 

:outstd logic vector(7 downto 0); — -- see appendix B 

:in std logic); -- onboard button BTNC 
TestFIFO is 

: std_logic; -- low frequency clock (—1 Hz) 

:std logic vector(data in size-1 downto 0); 

:std logic; -- FIFO write enable 

: std_logic; -- FIFO read enable 

: std_logic_vector(data_out_size-1 downto 0); 

: std_logic; -- '1' if FIFO is full 


:Std logic vector(4 downto 0); -- bits 4...0 for Hamming weight 


HW led <= ("00000" & to_rg(data_out_size-1)) + ('0' & bits4 0); -- handling an additional bit 


led div clk <= divided ， 


clk; 


Vector31_in = 1000 0001 0000 0011 0000 0110 0000 1100 
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led_full <= full; 
-- insert here the process enables gen from the previous project 


FIFO: entity work.FIFO_mem -- FIFO memory component 
port map ( wr. clk => clk, rd_clk => divided clk, din => random_8bit, 
wr en => wr en, rd en => rd en, dout => to rg, full => full, 
empty => led empty, rd data count => open, 
wr data count => open ); 


Random: entity work.RanGen  -- random number generator (see appendix B) 
generic map(width => data in size ) 
port map (cik, random 8bit); 


DispCont: entity work.EightDisplayControl -- display controller (see appendix B) 
port map(clk, to rg(31 downto 28), to rg(27 downto 24), to rg(23 downto 20), 
to rg(19 downto 16), to rg(15 downto 12), to rg(11 downto 8), 

to rg(7 downto 4), to rg(3 downto 0), sel disp, seg); 


div: entity work.clock divider -- dock divider (see appendix B) 
port map (clk, '0', divided clk); -- reset is always deasserted (‘0’) 


HW31: entity work.HW31 HWC32 -- the code of this component is given in appendix B 
port map (Data_in => to_rg, led => bits4_0, LedC => LedC); 


end Behavioral; 

以 上 工程 可 在 Nexys -4 板 上 测试 ， 如 图 4.6 所 示 。 电 路 占用 SO be fas fF 
(从 可 用 的 15850 片 中 选用 ) 和 一 个 RAMB36E1 模块 (从 135 个 可 用 模块 中 选用 ) 。 

第 二 个 工程 的 简化 器 件 图 如 图 4.7 所 示 。 一 旦 32 位 向 量 在 FIFO 的 输出 中 ， 则 
模块 sorter 在 这 个 向 量 中 排序 八 个 4 位 数据 。 当 按钮 BTNC 按 下 几 秒 钟 时 (直到 非 
零 值 替 换 掉 显示 在 段 显示 器 上 的 0) 然后 释放 ， 从 FIFO 中 读 取 八 个 十 六 进 制 数 字 
并 显示 在 段 显示 器 中 。 如 果 按 下 BTND 按钮 ， 则 提前 显示 在 段 显 示 器 上 的 数据 以 已 
排序 的 顺序 排列 〈 降 序 ) 。 例 如 ， 图 4.6 中 的 数据 将 显示 为 图 4.7 中 的 顺序 。 如 果 
再 次 按 下 BTNC 按钮 ， 则 将 显示 新 的 随机 数据 ， 按 下 BIND 按钮 的 同时 它们 就 已 排 
序 好 。 
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oe LE 全 一 一 一 一 如果 BTND 按 —" 


E. 
lock ee-- 一 一 
(100 Mita) rS Bu, nis x D» 
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每 个 4 位 这 些 数据 显示 在 图 4.6 中 


约 1 Hz 






显示 控制 










图 4.7 简化 器 件 图 ， 连 接 排 序 网 络 和 FIFO 存储 器 的 工程 实例 
个 工程 的 VHDL 代码 几乎 和 前 面 工程 的 代码 一 样 。 接 口 HW. led 和 LedC 不 
再 需要 并 被 移 除 。 咒 件 HW31_HWC32 由 排序 器 取代 ; 


sorter : entity work.EvenOddMerge8Sort  -- see the code of the sorter in section 34.1 
port map (input data => to rg, sorted data => sorted data); 
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当 按 下 BIND 按钮 时 ， 显 示 已 排序 的 数据 (sorted data): 


-- displaying either randomly generated data to rg or sorted data 
data to display <= to rg when BTND ='0' else sorted data; 


按钮 必须 加 到 接口 上 : 

BTND: in std logic; 

VHDL 代码 中 所 有 的 其 他 行 都 与 前 面 工 程 的 代码 一 样 。 电 路 可 在 Nexys -4 板 
中 测试 。 电 路 占用 S4 片 逻辑 器 件 和 一 个 模块 RAMB36E1 。 注 意 有 些 包 含 使 用 IP 
核 的 竺 入 内 存 模块 的 附加 例子 将 在 后 面 的 4.3 节 和 4.4 节 涉及 。 

最 后 一 个 例子 讲述 时 钟 电路 的 使 用 。 工 程 在 Xilinx ISE 14.7 中 创建 ， 命 名 为 
clock_mult、 类 型 为 IP 核 的 新 资源 加 入 到 FPGA Features & Design and Clocking 组 
中 。 这 里 要 求 使 用 输入 频率 为 100MHz， 输 出 时 钟 频率 分 别 为 150，200，300， 
400, 50 和 25MHz。 最 后 ， 核 产生 并 包含 到 工程 中 ， 如 下 : 


entity TopForClockGenerator is 
port (clk :in std logic; 
clock, sel : in std logic; -- switch | for the Nexys-4 board 
led25, led50, led100, led150, led200, led300, led400 
out std logic; — -- LEDs 0,1,2,3,4,5,6 for the Nexys-4 board 
variable clock :outstd logic); ^ -- LED 15 for the Nexys-4 board 
end TopForClockGenerator; 


architecture Behavioral of TopForClockGenerator is 
signal clk25, clk50, clk100, clk150, clk200, clk300, clk400, var. clk : std. logic; 
begin 


clk_man: entity work.clock_mult -- this core has been generated by the Xilinx IP core generator 
port map(CLK_IN1=>clk, CLK_OUT1=>clk100, CLK_OUT2=>clk150, 
CLK_OUT3=>clk200, CLK_OUT4=>clk300, CLK_OUT5=>clk400, 
CLK_OUT6=>clk50, CLK_OUT7=>clk25); 


div100 : entity work.clock_divider -- generic parameter how fast in the clock_ 
port map(clk100, '0', led100); -- parameter how fast is set to 28 (see appendix B for details) 


-- similar to divl00 clock dividers for signals dk150, dk200, clk300, clk400, clk 50, clk25 
div_var: entity work.clock_divider 
port map(var clk, '0', variable clock); -- reset is always deasserted (‘0’) 


var_clk <= clk100 when clock sel = '1' else clk400; 


end Behavioral: 


每 个 工程 都 可 在 Nexys - 4 板 中 测试 。 器 件 clock mult 的 时 钟 频率 由 因子 
2*1 929 =536870912 划分 (时 钟 划 分 的 代码 见 附录 B)。 因 此 ，Led0 从 ON 
到 OFF 改变 状态 ， 每 21. 5s 改变 一 次 (Bl 536870912/25000000)， 反 之 亦 然 ，Led1 
改变 状态 的 频率 是 Led0 的 两 倍 等 。 对 于 Led0，……，6 的 开关 频率 从 Ledo 到 Led6 
依次 增加 。Led15 的 频率 由 开关 0 控制 ， 可 以 以 因子 4 增加 或 减少 。 
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4.2 #RA DSP 


大 多 数 现代 FPGA ARA T DSP (如 Xilinx FPGA 的 DSPA8EI?! ) ， 而 且 它们 
可 以 执行 算术 和 逻辑 操作 。 例 如 ， 在 3.8 节 和 本 章 参考 文献 [5] 中 描述 的 计数 网 
络 部 分 ， 适用 于 位 操作 。 而 且 ， 对 于 N<2 xë, Hp gE DSP 操作 数 的 大 小 (对 于 
DSP48E1, 上 =48， 最 新 FPGA 具有 很 多 这 样 的 器 件 ) ， 操 作 “ 与 ”和 “ 异 或 ”( 见 
图 3.42a) 可 以 在 两 片 DSP 中 并 发 执行 (“与 ”操作 在 第 一 片 ,，“ 异 或 ”操作 在 第 
二 片 )。 对 于 N >2 x 上 ， 网 络 会 分 解 为 小 部 分 并 在 不 同 的 器 件 中 执行 。 

该 小 节 会 涉及 一 些 例子 来 讲述 使 用 DSP 解决 先前 在 本 书 中 讨论 过 的 问题 ， 比 
如 汉 明 权重 计数 器 /比较 器 的 设计 。 关 于 DSP 的 详尽 资料 可 以 在 相关 公司 的 向 导 中 
找到 ， 比 如 本 章 参 考 文献 [4] 中 。 开 始 只 使 用 部 分 DSP48E1 ， 即 只 使 用 以 下 例子 
会 涉及 的 器 件 ， 如 图 4.8 所 示 。 这 里 的 电路 是 需要 输入 和 输出 ， 见 图 4.8 中 的 
粗 线 。 





图 4.8 部 分 DSP48E1 用 于 以 下 实例 


以 下 简单 例子 关于 如 何 测试 不 同 的 位 操作 。 选 择 用 于 48 位 多 功能 算术 模块 
DSP48El 的 语言 模板 (通过 路 径 在 Xilinx ISE; VHDL—Device Primitive Instantiation 
— Artix -7 一 Arithmetic Functions) 和 自 定义 。 图 4.8 中 没有 DSP 乘法 器 ， 通 过 将 
DSP48E1 的 类 属 映 射 USE MULT 归属 为 NONE ( 即 USE_MULT = >” NONE") 来 
ame), SUE, SBME (在 图 4. 8 中 由 字母 工 指示 ) ， 既 可 以 执行 两 个 48 位 
二 进 制 向 量 ， 而 且 改 变 ALUMODE 控制 信号 可 以 对 它们 进行 动态 控制 ( 见 图 4.8)。 
图 4. 9 所 示 为 模块 DSP48E1 的 模板 如 何 自 定义 ， 由 Xilinx 向 导 指 导 完成 ” 。 
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1) USE_MULT=>“NONE”, 
2) USE_SIMD=>“ONE48”, | 类 映射 
3) 管道 阶段 设置 为 0 

4) 其 他 所 有 值 不 做 改变 


1) 30 位 输入 A 和 18 位 输入 B 是 并 置 的 ， 且 作 为 第 一 个 向 量 





2) 48 位 输入 C 作 为 第 二 个 向 量 
3) 25 位 输入 D 赋 值 0 








上 接口 映射 

4) 按 扭 选择 模式 

5) 选择 OPMODE=>>“*0110011” 

6) 其 他 所 有 值 不 做 改变 

图 4.9 为 DSPA8EI 改变 模板 
现在 可 以 测试 以 下 VHDL 代码 : 
entity Test_bitwise_with_DSP is 
port(Sw :in std logic vector (15 downto 0); — -- 8+8 bits for two vectors 
mode :in std logic vector(3 downto 0); -- this is ALUMODE for DSP48E] 


led — : out std logic vector (15 downto 0)); -- the result of bitwise operations 
end Test_bitwise_with_DSP; : 


architecture Behavioral of Test_bitwise_with_DSP is 
signal Op1, Op2,Y — :std logic vector(47 downto 0); 
begin 


Op1 <= (47 downto 8 => '0') & Sw(15 downto 8); -- the first vector 

Op2 <= (47 downto 8 => '0') & Sw(7 downto 0); -- the second vector 

led <= Y(15 downto 0); -- the result 

DSP: entity work. TesDSP48E1 bitwise -- link with the template DSP48E| component 
port map (Op1, Op2, mode, Y); -- the library UNISIM is included in the template 


end Behavioral; 

位 操作 由 OPMODE 位 3、 位 2 和 ALUMODE 选择 。 这 样 操作 的 例子 是 对 于 OP- 
MODE (3: 2) = “00” Æ ALUMODE = “0100”, Jj "xor"; 对 于 OPMODE (3; 
2) = “00”, ALUMODE = "1100", Jj "and"; 对 于 OPMODE (3: 2) = “10”, 
ALUMODE = “1100”， 为 “or”( 更 多 细节 见 [4]). 

在 单 指令 多 数据 (Single Instruction Multiple Data, SIMD) 模式 ，48 位 加 / 减 / 
累加 可 以 分 为 四 个 独立 的 12 位 或 者 两 个 独立 的 24 位 加 / 减 /累加 器 来 执行 同样 的 功 
fE, H ALUMODE 明确 。 在 DSP48E1 的 USE_SIMD 操作 中 类 属 映射 必须 适当 改变 
为 USE_SIMD = > “FOUR12”( 对 于 四 个 操作 ， 每 个 都 是 12 位 操作 数 ) 或 者 USE_ 
SIMD = > "TWO24" (对 于 两 个 操作 ， 每 个 都 是 24 位 操作 数 ) OPMODE 控制 
DSP48E1l 中 的 多 路 器 输出 和 选择 不 同 的 操作 数 〈( 见 图 4.8)。VHDL 代码 OPMODE 
是 一 样 的 (“0110011”)， 其 中 前 三 位 (“011”) Æ Z 多 路 器 的 输出 上 选择 第 二 个 
操作 数 (0p2)“ ， 接 下 来 的 两 位 (“00”) 在 多 路 器 上 置 0"1， 最 后 两 位 
( *11") 在 X 多 路 器 的 输出 选择 第 一 个 操作 数 (Op1)!  。 所 有 的 细节 可 在 本 章 参 
考 文献 [4] 中 找到 。 以 下 实例 子 需 要 输入 和 输出 信号 。 执 行 汉 明 权重 计数 器 和 比 
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较 器 ， 曾 在 3.7 ~3.9 节 涉 及 过 ， 如 图 4. 10 所 示 。 
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2 位 和 ,最 大 值 4 位 和 ,最 大 值 为 
E 105-210 10005780 


3 位 和 ,最 大 值 为 
1 005-4 10 





图 4. 10 计算 汉 明 权重 ,并 与 固定 阐 值 (16 位 二 进 制 向 量 ) 做 比较 


在 开始 时 ，16 位 二 进 制 向 量 中 的 所 有 位 分 为 2 位 一 组 并 分 别 求 和 。 和 的 大 小 
是 2 位 ， 可 能 的 值 为 00，01，10。 产 生 的 和 再 次 分 为 两 个 一 组 并 分 别 求 和 ， 和 的 
结果 是 3 位 ， 可 能 值 为 000，001，010，011，100。 任何 相似 的 操作 在 后 面 的 操作 
中 给 出 的 结果 都 是 n+1 位 的 ， 其 中 是 使 用 的 操作 数 的 大 小 。 

在 基于 DSP 执行 中 需要 考虑 的 特征 如 图 4. 11 所 示 。 只 需要 一 片 DSP48El。48 
位 加 法 器 的 输出 作为 下 一 步 的 输入 ， 选 择 适 用 于 操作 数 和 结果 的 位 。 例 如 ， 第 一 步 
的 加 法 ，48 操作 数 (Ao, Ao, cen ss Bayou ) 的 偶数 位 置 为 0。 从 相关 的 
偶 和 奇 位 中 选择 2 位 结果 (n=2) ， 并 再 次 作为 输入 ， 具 有 索引 16, 17, 19, 20, 
22, 23, 25, 26, n+1 位 输入 的 每 组 的 最 高 有 效 位 〈 即 18，21，24，27) 在 此 不 
再 使 用 并 置 为 0。 比 较 的 结果 类 似 于 本 章 参考 文献 [6] (也 可 见 3.7 节 )。 在 3.9 
节 ， 基 于 LUT 的 比较 器 也 可 以 用 来 支持 图 3. 30 中 的 参数 。 

这 里 的 方法 允许 执行 相当 复杂 的 汉 明 权重 计数 器 /比较 器 ， 而 且 使 用 的 资源 很 
少 。 例 如 ， 图 4. 11 所 示 电 路 只 要 求 一 片 DSP48E1。 对 于 N =32， 这 样 的 片 的 数量 
是 2， 对 于 N=64 则 需要 四 片 。 基 于 DSP 的 计数 器 /比较 器 的 完整 综合 的 VHDL fX 
码 见 附录 B。 类 似 的 电路 也 可 在 Xilinx FPGA 的 前 面 的 系列 中 用 DSP48E1 建立 CIE 
如 Atlys 板 的 Spartan -6 FPGA) 。 

现在 ， 考 虑 汉 明 权重 计数 器 /比较 器 的 综合 VHDL 代码 ， 如 图 4. 10 和 图 4. 11 
所 示 。 
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二 进 制 补 码 立 值 
图 4.11 在 一 片 DSP48E1 上 执行 汉 明 权重 计数 器 /比较 器 
entity Test HW16 is -- the circuit occupiers | DSP slice and 0 logical slices 
port (Sw: in std logic vector (15 downto 0); -- 16-bit input vector 
led: out std_logic_vector (4 downto 0); — -- the Hamming weight and the result 
led_comp: out std_logic ); -- of comparison with fixed threshold 
end Test HW16; 
architecture Behavioral of Test HW16 is 
signal A, B, Y: std logic vector(47 downto 0); -- DSP operands (A,B) and the result (Y) 
signal threshold : std logic vector(4 downto 0); 
begin 
threshold « not "01010" * 1; -- threshold two's complement 
process(Sw, Y, threshold) 
begin 
A <= (others => '0'); -- the first 48-bit DSP operand 
B <= (others => '0'); -- the second 48-bit DSP operand 
for i in 7 downto 0 loop -- the first stage in Fig. 4.10 
A(2*i) <= Sw(i); 
B(2*i) <= Sw(i*8); 
end loop; 
for iin 3 downto 0 loop -- the second stage in Fig. 4.10 
A(16+3*i+1 downto 16+3*i) <= Y(2*i+1 downto 2*i); 
B(16*3'i*1 downto 16+3*i) <= Y(2*i+1+8 downto 2*i*8); 
end loop; 
fori in 1 downto 0 loop -- the third stage in Fig. 4.10 
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A(28+4*i+2 downto 2844*i) <= Y(16+3*i+2 downto 16*3*i); 
B(28+4*i+2 downto 28+4*i) <= Y(16+3"i+2+6 downto 16+37i+6); 
end loop; 
A(39 downto 36) <= Y(31 downto 28); -- the fourth stage in Fig. 4.10 
B(39 downto 36) <= Y(35 downto 32); 
A(45 downto 41) <= Y(40 downto 36); — Hamming weight comparison 
B(45 downto 41) <= threshold; 
end process; 
led <= Y(40 downto 36); -- the resulting Hamming weight 
led comp <= Y(46); -- the result of Hamming weight comparison 
DSP: entity work. TesDSP48E1 HW16 
port map (A, B, "0000", Y); 
end Behavioral; 


实体 TesDSP48E1_HW16 代码 如 下 : 
entity TesDSP48E1 HW16 is 


port (A conc B :in std logic vector (47 downto 0); 
:in std logic vector (47 downto 0); 
mode :in std logic vector(3 downto 0); 
Result : out std logic vector (47 downto 0)); 


end TesDSP48E1 HW16; 

器 件 TesDSP48E1_HW16 如 下 ， 比 较 与 模板 的 不 同 : 
1) 以 下 两 行 在 结构 体 中 使 用 : 

A<=A conc B(47 downto 18); -- A is 30-bit operand 


B <= A_conc_B(17 downto 0); -- B is 18-bit operand 
2) 以 下 行 在 接口 映射 中 改变 : 
P => Result, -- see Fig. 4.8 
A=>A, -- 30-bit input: A data input 
B => B, -- 18-bit input: B data input 
C => C, -- 48-bit input: C data input 
OPMODE => "0001111", -- Mux X and Mux Y are used (see Fig. 4.8) 
ALUMODE => mode, -- mode = "0000": addition operation is chosen 


3) 其 他 改变 如 图 4.9 所 示 。 以 下 VHDL 代码 表现 了 需要 执行 汉 明 权 重 计数 器 
的 政变 ，N = 19， 一 片 DSP: 
entity Test HW19 is — -- the circuit occupiers | DSP slice and 0 logical slices 
port (Sw: in STD LOGIC VECTOR (15 downto 0); -- 16 bit input vector 
led: out STD_LOGIC_VECTOR (15 downto 0); -- The Hamming weight 
BTNL, BTNR, BTNC : in std logic); - additional 3 bits for input vector 
end Test HW19; 


-- below only changes comparing to the previous project are shown 
process(Sw,Y BTNL,BTNR) 
A(44 downto 43) <= Y(42 downto 41); 


B(47 downto 43) <= Y(40 downto 36); 
end process; 


led <= (15 downto 5 => '0') & Y(47 downto 43); 
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DSP: entity work.TesDSP48E1_HW19 
port map (A, B, "0000", Y, BTNC); 


以 下 额外 的 改变 在 DSP 模板 中 完成 〈 在 接口 映射 ) : 

CARRYIN => BTNC, 

所 有 的 工程 都 在 Nexys -4 板 中 测试 。N =32 和 N = 64 的 工程 见 附录 B， 其 中 
使 用 一 个 附加 信号 CarryOutBit， 是 4 位 CARRYOUT 信号 的 最 高 有 效 位 (位 3)， 如 
图 4.8 所 示 。 它 将 48 位 操作 单元 的 输出 信号 保持 在 DSPASEI 中 。 


4.3 FPGA 交互 


到 目前 为 止 ， 在 外 部 器 件 的 帮助 下 〈 如 按 下 按钮 、 转 换 开 关 、LED 和 7 段 显 
示 器 ) ， 我 们 交互 了 所 有 的 已 完成 的 电路 ， 这 些 器 件 都 在 原型 机 板 上 可 供 使 用 。 这 
类 交互 可 以 测试 简单 的 工程 ， 但 是 不 适用 于 复杂 的 设计 。 而 且 ， 板 集 器 件 用 于 支持 
FPGA 中 进程 的 (大 ) 输入 数据 的 容量 是 有 限制 的 。 这 也 是 为 什么 以 上 例子 都 用 到 
随机 数 生成 器 。 因 此 ， 当 涉及 大 数据 必须 从 主机 上 的 软件 运行 传输 到 FPGA 上 的 电 
路 上 运行 并 且 返 回 时 ， 就 需要 提供 支持 电脑 和 FPCA 之 间 的 交互 。 

这 里 将 探索 两 类 交互 ， 即 数字 并 行 接口 和 普通 异步 接收 和 传输 接口 (Universal 
Asynchronous Receiver and Transmitter，UART) ， 并 将 讲述 在 PC 软件 和 FPGA 硬件 
_ 中 如 何 发 展 通信 模块 。 


4.3.1 Digilent 并 行 端 口 接口 


数字 并 行 接口 遵循 并 行 通 信 的 EPP (Enhanced Parallel Port) 模式 。 这 个 接口 
只 能 用 于 具有 数字 EPP 数据 传输 能 力 的 数字 原型 机 板 (如 Nexys -2，Nexys -3 和 
Ays; 请 注意 Nexys -4 板 不 支持 这 种 接口 ) 。 

EPP 是 半 双 工 双向 接口 ， 意 味 着 接收 器 和 传输 器 共用 一 个 单 并 行 数据 总 线 ， 但 
不 是 同时 使 用 。 数 据 总 线 为 8 位 宽 ，6 根据 手 线 控制 数据 传输 (Digilent EPP 使 用 4 
根据 手 线 ) 。FPGA 逻辑 必须 包括 单 8 位 地 址 寄存 器 ， 多 达 256 个 8 位 数据 寄存 器 ， 
可 由 主机 读 和 写 。 单 数据 寄存 器 是 可 寻 址 的 ， 通 过 地 址 寄存 器 明确 其 值 。 所 有 dig- 
ilent EPP 接口 线 如 下 : 

EppDB 8 位 双向 数据 总 线 ; 

EppAsth 一 一 主机 控制 地 址 选 通 脉冲 ， 使 数据 从 地 址 寄存 器 中 读 取 或 写 人 ; 




















EppDstb 一 一 主机 控制 数据 选 通 脉冲 ， 使 数据 从 数据 寄存 器 中 读 取 或 写 入 ; 

EppWait——FPGA 驱动 的 同步 信号 ， 当 FPGA 准备 好 传输 或 者 接收 数据 时 
指示 ; 

EppWr 一 一 主机 选择 的 数据 传输 目录 (高 电 平 为 PC 从 FPGA 寄存 器 中 读 取 数 


据 ， 低 电 平 为 PC 写 人 数据 到 FPGA FITA) 。 
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通过 传输 循环 进入 寄存 器 ， 有 四 种 类 型 的 可 行 的 传输 方式 ， 即 读 地 址 寄存 器 、 
写 地 址 寄存 器 、 读 数据 寄存 器 和 写 数据 寄存 器 。 数 据 传输 的 目录 由 主机 通过 EppWr 
信号 控制 。 图 4. 12 所 示 时 间 图 关于 读 写 传 输 循环 ， 更 多 细节 见 本 章 参考 文献 























[7]s 

EppDB pe 
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< EppWr 
tp FPP 
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ESI 
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EppDB es x 
a 
E EppWr 4 
a 
Ez 
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b) 
图 4.12 对 于 Digilent EPP 接口 的 转移 周期 时 间 图 
a) SA b) iK 


1. Digilent EPP 通信 模块 

在 EPP 通信 模块 中 支持 三 个 数据 寄存 器 : 

1) 寄存 器 0x00 保持 地 址 用 于 记忆 处 理 ( 如 当 使 用 PC 提供 的 数据 填充 内 存 模 
块 时 ， 有 利于 明确 写 人 地 址 ; 相同 的 技术 可 以 在 读 周期 中 使 用 ,使 主机 从 明确 的 内 
存 地 址 读 取 数据 ); 

2) 寄存 器 0X01 保留 来 自 PC 的 8 位 用 户 数据 ; 

3) 寄存 器 0x05 保留 送 入 PC 的 8 位 数据 。 

请 注意 数据 寄存 器 地 址 〈 即 0x00，0x01 和 0x05) 是 随意 选择 的 ， 其 他 地 址 可 
以 相同 地 应 用 。 如 果 需 要 ， 则 更 多 的 寄存 器 〈 多 达 256 个 ) 可 以 轻松 增加 到 通信 
模块 中 〈 见 本 章 参 考 文献 【8] 中 的 例子 ， 这 个 例子 涉及 16 个 数据 寄存 器 ) o 

以 下 实体 EPP_interface 根据 图 4. 12 所 示 时 序 图 执行 地 址 寄存 器 和 上 面 列 出 的 
数据 寄存 器 ， 并 与 平行 接口 总 线 交 互 。 除 了 通信 信和 号 外 ， 模 块 还 具有 三 个 额外 的 输 
出 接口 和 一 个 输入 接口 : 

1) data to pe 是 由 FPGA 中 执行 电路 提供 的 8 位 值 ，FPCA 保留 通过 Digilent 
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EPP 接口 送信 PC 的 数据 ; 

2) data_from_PC 是 通过 Digilent EPP 接口 接收 来 自 PC 的 8 位 值 ， 这 个 值 下 一 
步 会 传输 到 FPGA 中 执行 的 其 他 逻辑 电路 ; 

3) data ready 是 1 位 信 叶 ， 表 明 数 据 已 经 从 PC 中 收 到 而 且 已 经 准备 好 进一步 
的 处 理 ; 

4) address 是 8 位 信号 ， 用 于 保留 内 存 交 换 的 地 址 ， 这 个 地 址 由 主机 设 定 。 


library ieee; 
use ieee.std logic 1164.all; 
entity EPP interface is 
port (-- EEP handshaking signals and data bus 





EppAstb: in std logic; -- address strobe 
EppDstb: in std logic; -- data strobe 

EppWr : in std logic; -- direction of data transfer 
EppDB : inout std logic vector(7 downto 0); — -- parallel data bus 
EppWait: out std logic; -- synchronization wait signal 


-- user extended signals 
-- address for memory access operations (stored in the data register 0x00) 
address : out std logic vector (7 downto 0); 
-- signal which indicates that data are ready to be used in other design blocks 
data ready : out std logic; 
-- 8-bit user data received from the PC (stored in the data register 0x01) 
data from PC: out std logic vector(7 downto 0); 
-- 8-bit data to send to the PC (held in the data register 0x05) 
data to PC : in std logic vector(7 downto 0)); 

end EPP interface; 


architecture Behavioral of EPP. interface is 
signal EppAddressRegister: std logic vector (7 downto 0); — -- Epp address register 
signal EpplnternalBus: std logic. vector(7 downto 0); -- internal bus 


begin 

~-activate EppWait when either address strobe or data strobe is asserted 

EppWait <= '1' when EppAstb = '0' or EppDstb = '0' else '0'; 

--write to the data bus during PC read cycles 

EppDB <= EppinternalBus when (EppWr = '1') else (others => 'Z’); 

--write address or data to the bus 

EppinternalBus <= EppAddressRegister when (EppAstb = '0') else data to PC; 


address_register: process (EppAstb) 


begin 
if rising_edge(EppAstb) then --end of address access cycle 
if EppWr = '0' then --this is address write cycle 
EppAddressRegister <= EppDB; --update the address register 
end if; 
end if; 


end process address register; 


data registers: process (EppDstb) 


begin 
if rising edge(EppDstb) then --end of data access cycle 
if EppWr = '0' then --this is data write cycle 
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data, ready <= '0'; 

if EppAddressRegister = x'00" then --memory address register 
address <= EppDB; 

elsif EppAddressRegister = X"01" then--register holding user data received from PC 
data from PC <= EppDB; 
data ready <= '1'; 

end if; 

end if; 
end if; 
end process data registers; 





end Behavioral; 
用 做 好 的 通信 模块 设计 简单 的 电路 ， 即 接收 PC 产生 的 8 位 随机 数 并 显示 在 


Atlys 板 的 LED 上。 类 似 地 ， 可 以 将 板 集 开 关上 选择 的 8 位 值 送 入 主机 PC。 电 路 如 
图 4.13 所 示 。 


| EPP_interface 


EppWait EppWait 
address 
data_ready 


data_from_PC LED 
Wd data to PC NS 


图 4.13 电路 结构 图 ， 从 主机 接收 8 位 值 ， 通 过 Digilent EPP 接口 
并 限制 在 Atlys 板 集 的 LED 上， 传输 8 位 值 到 主机 





电路 用 VHDL 语言 描述 如 下 : 
library ieee; 
use ieee.std logic 1164.all; 


entity main is 
port (EppAstb : in std logic; 
EppDstb : in std logic; 
EppWr : in std logic; 
EppDB : inout std logic vector(7 downto 0); 
EppWait : out std logic; 
sw : in std logic vector(7 downto 0); 
LED : out std_logic_vector(7 downto 0)); 
end main; 


architecture Behavioral of main is 
signal data_from_PC, data_to_PC : std_logic_vector(7 downto 0); 
begin 
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EPP: entity work.EPP interface port map (EppAstb => EppAstb, 
EppDstb => EppDstb, EppWr => EppWr, EppDB => EppDB, 
EppWait => EppWait, address => open, data ready => open, 
data to PC => data to PC, data from PC => data from PC); 


LED «- data from PC; 
data to PC <= sw; 
end Behavioral; 


注意 这 个 例子 中 的 数据 转移 是 简单 的 ， 这 也 是 为 什么 通信 模块 中 产生 的 信号 
address 和 data. ready 是 不 需要 的 ， 且 在 左边 不 连接 。 在 4.4 节 的 复杂 例子 中 ， 将 集 
中 使 用 这 些 信 号 。 

Main 实体 中 的 所 有 接口 连接 到 相应 的 FPGA 引 脚 。 各 个 引 脚 位 置 可 以 在 板 集 
文件 的 主 用 户 约束 文件 (User Constraints File, UCF) 中 找到 。 

为 了 测试 设计 的 电路 ， 第 二 个 通信 模块 必须 在 PC 软件 中 设计 好 。 随 后 的 章节 
将 给 出 必要 的 说 明和 例子 。 

2. 应 用 软件 

需要 的 便 件 模块 完成 后 ， 就 需要 对 其 进行 测试 和 评估 数据 传输 器 件 ， 因 此 需要 
设计 与 FPGA 逻辑 交互 的 应 用 软件 。 在 Adept 软件 开发 套件 (Software Development 
Kit,) 的 帮助 下 通过 USB 执行 数据 传输 ，Adept SDK 提供 应 用 编程 接口 ( Applica- 
tion Programming Interface; API) DPCUTIL， 这 个 借口 允许 装备 有 EPP 的 Digilent 原 
型 机 板 与 主机 Windows 运行 的 应 用 软件 通信 '”] 。API 要 求 并 行 接口 在 FPGA 中 ， 以 
4.3.1 节 1. 描述 的 方法 执行 。API 由 C 函数 阵列 构成 ， 可 以 用 于 C/C + + 编写 的 程 
FeO), API 函数 允许 进入 ( 写 和 读 ) 单 寄存 器 或 者 寄存 器 集 。API 的 细节 描述 见 参 
考 文献 [9 ] 

为 了 使 用 DPCUTIL API 函数 ， 程 序 必须 链接 到 dpcutil Æ 〈 在 本 章 参 考 文献 
[9] 中 可 找到 ) ， 并 包含 到 如 下 头 文件 : 

#include <windows.h> 

#include "dpcdefs.h" 

#include "dpcutil.h" 

以 下 C+ + 代码 是 主机 PC 运行 的 软件 程序 和 装备 有 EPP 的 Digilent 原型 机 板 
之 间 的 交互 : ， 

//The following header files are required to use the DPCUTIL API 

//The program must be linked with the dpcutil.lib library. 

#include <windows.h> 

stinclude "dpcdefs.h" 

#include "dpcutil.h" 


#include <iostream> 

#include <ctime> 

const int INITIALIZATION_FAILED = 1; 

const int NO DEFAULT. DEVICE = 2; 

const int INTERNAL ERROR - 3305; //internal error in DPCUTIL 
const int devNameLength = 16; 

char nameDevice[devNameL ength 1]; 
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void SendDataToFPGA(unsigned data); 

bool WriteData(HANDLE hif, unsigned data); 
void ReceiveResultFromFPGA(unsigned& data); 
bool ReadData(HANDLE hif, unsigned& data); 


using namespace std; 








int main(int argc, char* argv[]) 
{ ERC error_code; 
if ( IDpclnit(&error code) ) //before using DPCUTIL API functions, call Dpclnit 
return INITIALIZATION FAILED; //error occurred while initializing 
//obtain the index of the default device in the Device Table 
int idDevice = DvmgGetDefaultDev(&error_code); 
if (idDevice == -1) //no devices in the Device Table 
(  cerr << "No default device"«« endl: 
cerr «« "Run Digilent Adept and modify the Device Table" «« 
" (Settings tab, Device Manager option)" «« endl; 
return NO DEFAULT. DEVICE; 


else //get the default device name 
DvmgGetDevName(idDevice, nameDevice, &error code); 


unsigned data, result; 

const int range min = 0, range max = Oxff; 
srand (static cast«unsigned»(time(0))); 
char operation; 


do 
{ cout << "Select an operation (r - read switches, s - send a value, e - exit)\n"; 
cin >> operation; 
switch (operation) 
{ case 'r': ReceiveResultFromFPGA(result); 
cout << "The result from FPGA is: " << hex << result << endl; 
break; 
case 's': //randomly generate an 8-bit number 
data = static_cast<unsigned>((double)rand() / (RAND MAX + 1) * 
(range max-range min) *range min); 
SendDataToFPGA(data); //send data to the FPGA 
break; 
case 'e' : break; 
default: cout << "Wrong parameter" << endl; 


} 


while (operation != 'e'); 
return 0; 


} 


void SendDataToFPGA(unsigned data) //sends an 8-bit data item to the FPGA 
{ ERC error. code; 

HANDLE hif; 

TRID trid; //transaction ID type 

//before using data transfer functions, connect to a communication device 
if (IDpcOpenData(&hif, nameDevice, &error code, &trid)) 
{ cerr << "DpcOpenData failed." << endl; 

return; 
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//wait for the last (trid) transaction to be completed 

if ('DpcWaitForTransaction(hif, trid, &error code)) 

(  DpcCloseData(hif, &error code); // dose the communications module 
cerr << "DpcOpenData failed." << endl; 
return; 


} 
if (IWriteData(hif, data)) return; //data transfer 





error code = DpcGetFirstError(hif); //search for the first transaction with an error 
if ((error_code == ercNoError) || (error_code == INTERNAL_ERROR) ) 
{ DpcCloseData(hif, &error code); //dose the communications module 
cout << "Value " << hex << data <<" successfully written to the FPGA." << enc 
} 


else 
{ DpcCloseData(hif, &error code); //close the communications module 
cerr << "An error occurred while setting the register" << endl; 
} 
} 


bool WriteData(HANDLE hif, unsigned data) 
{ ERC error_code; 
unsigned char idData; 
unsigned idReg; 
idReg = 0x01; 
idData = data; 
/Isend a single data byte (idData) to the register idReg 
if (!DpcPutReg(hif, idReg, idData, &error code, 0)) 
(  DpcCloseData(hif, &error code); //close the communications module 
cerr << "DpcPutReg failed." << endl; 
return false; 
} 
return true; 
} 
void ReceiveResultFromFPGA(unsigned& data) 
{ ERC error_code; 
HANDLE hif, 
//before using data transfer functions, connect to a communication device 
if (IDpcOpenData(&hif, nameDevice, &error code, 0)) 
{ cerr << "DpcOpenData failed." << endl; 
return; 
) 


if ('ReadData(hif, data)) return; //data transfer 


error_code = DpcGetFirstError(hif); //search for the first transaction with an error 
if ((error_code == ercNoError) || (error code == INTERNAL_ERROR) ) 
{ DpcCloseData(hif, &error_code); //dose the communications module 
cout << "Values successfully received from the FPGA." << endl; 
} 


else 


{ DpcCloseData(hif, &error code); //close the communications module 
cerr << "An error occurred while reading the register" << endl; 
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) 


bool ReadData(HANDLE hif, unsigned& data) 
{ ERC error. code; 
unsigned char idData; 
unsigned idReg; 
data = 0; 
idReg = 0x05; 
//get a single data byte (idData) from the register idReg 
if (IDpcGetReg(hif, idReg, &idData, &error code, 0)) 
(  DpcCloseData(hif, &error code); //close the communications module 
cerr «« "DpcGetReg failed." «« endl; 
return false; 


} 
data = idData; 
return true; 


程序 开始 时 初始 化 dpcutil， 在 器 件 表 中 获得 默认 器 件 的 索引 。 器 件 表 由 Digi- 
lent Adept 器 件 管理 〈 设 置 标签 ， 器 件 管理 选项 ) 。 如 果 在 初始 化 时 出 现 问 题 ， 则 
应 确保 dpcutil 对 linker 可 见 且 连接 板 出 现在 器 件 表 中 。 之 后 程序 反复 建议 用 户 从 三 
个 可 用 选项 中 选择 一 个 :“r” 为 读 板 集 开关 的 值 然 后 输出 在 屏幕 上 ，“s” 为 传输 
产生 的 8 位 随机 值 到 板 集 并 在 LED 上 显示 , “e” MEH o RŽ SendDataToFPGA 和 
WriteData 传输 8 位 数据 到 FPGA (通过 写 数 据 寄 存 器 0x01), PK% ReceiveResult- 
FromFPGA 和 ReadData 从 FPGA 的 通信 模块 中 获得 8 位 值 〔〈 通 过 读数 据 寄存 器 
0x05) 。 

以 下 dpeutil 函数 用 于 上 述 代码 ; 

1) Dpelnit 一 在 使 用 dpeutil API 函数 前 必须 提前 调用 ， 初 始 化 成 功 返 回 真 值 ， 
否则 返回 假 值 ; 

2) DvmgGetDefaultDev 一 允许 在 Digilent 器 件 表 中 获得 默认 器 件 的 索引 值 ， 没 
有 默认 器 件 返回 -1， 在 这 种 情况 下 ， 用 户 必须 通过 Digilent Adept 工具 设置 默认 器 
件 到 器 件 表 中 〈 设 置 标签 ， 器 件 管理 选项 ) ; 

3) DvmgGetName 一 获得 所 选 默认 器 件 RAT 

4) DpcOpenData 一 建立 和 默认 器 件 的 连接 ， 这 个 函数 创建 用 于 后 续 数据 传输 
周期 的 句柄 ; 

5) DpcWaitForTransaction— ^f RHE iM 7 JiV. ; 

6) DpcGetFirstError—2 [4] iia 

7) DpeGetFirstError 一 寻找 第 一 次 错误 传输 并 返回 错误 代码 ， 错 误 代 码 详 见 本 
章 参考 文献 [9]; 

8) DpcPutReg 一 送 一 位 到 已 明确 的 数据 寄存 器 中 ， 上 述 代码 中 只 有 0x01 寄存 
器 写 人 了 值 ; 

9) DpcGetReg 一 从 已 明确 的 数据 寄存 器 中 获得 一 位 ， 上 述 代 码 中 只 从 0x05 寄 
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最 后 ， 上 述 代码 和 4.3.1 节 1. 中 描述 的 电路 允许 FPGA 与 主机 PC 通信 ， 如 图 
4. 14 所 示 。 这 里 探究 的 通信 情景 非常 简单 ， 但 却 可 以 作为 更 多 复杂 交互 模型 的 基 
础 ， 具 体 将 在 4.4 节 介 绍 。 





Host PC 


Select an operation <r - read switches, s ~ send a value, e ~ exit? 
T 


Values successfully received from the FPGA. 
The result from FPGA is: 
Select an operation (r ~ read switches, s - send a value, e ~ exit? 


s 
Value 76 successfully written to the FPGA. 
Selectfan operation <r - read switches, s ~ send a value, e - exit? 


这 个 数字 由 软 
件 随 机 生成 


EppAstb | EPP_interface 
EppDstb 
EppWr 


EppDB 
EppWait 
address 
data_ready 
data_from_PC 
EA data_to_PC [^8 


LedO 


JE 


图 4.14 FPGA 和 主机 的 交流 实例 





4.3.2 UART 接口 


对 于 不 支持 Digilent EPP 数据 传输 的 板 集 (如 Nexys -4 板 ) ， 需 要 探索 其 他 的 
通信 接口 。UART 接口 执行 非常 简单 的 串 行 通信 协议 。 

Nexys -4 板 具 有 允许 主机 通过 标准 COM (通信 接口 ) 命令 窗口 与 板 集 进行 通 
HH] USB - UART 桥 '"1。 为 了 建立 通信 ， 要 求 USB - COM 接口 驱动 将 USB 包 转 换 
J UART 数据 I" 。 板 集 FPGA 的 四 个 引 脚 连接 到 USB 控制 器 的 四 条 线路 ， 即 RXD 
( 引 脚 C4) 用 于 主机 PC 传输 数据 到 FPCA，TXD ( 引 脚 D4) 用 于 FPGA 传输 数据 
到 主机 PC，RTSACTS 〈 引 脚 E5ZD3 ) 为 握手 控制 信号 。 以 这 种 方式 ， 板 集 支 持 全 
双 工 双向 接口 ， 即 FPGA 和 PC 可 以 使 用 独立 线路 同时 传输 数据 (RXD 和 TXD)。 
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因为 FPGA 要 传输 数据 到 主机 PC， 也 接收 来 自 PC 的 数据 ， 需 要 执行 传输 和 接 
收 电路 。 基 本 上 ， 传 输 器 获得 并 行 数据 ， 并 以 特殊 速率 一 位 一 位 地 将 它们 转移 到 通 
信 线 路 。 接 收 器 执行 相反 的 任务 ， 即 它 从 串 行 数 据 中 一 位 一 位 地 提取 数据 〈 也 以 
特殊 速率 ) ， 并 转换 为 并 行 数据 。 数 据 采 样 率 (位 ) 称 为 波 特 率 ， 对 于 UART， 这 
就 是 通过 串 行 通信 线路 每 秒 传输 的 比特 数 。 为 了 接口 能 够 合理 工作 ， 接 收回 和 传输 
髓 必须 工作 在 同一 波 特 率 。 当 闲置 时 串 行 电路 总 是 “1”。 传 输 时 有 一 个 起 始 位 ， 
其 值 总 是 “0”， 其 后 是 数据 和 奇偶 校 验 位 ， 最 后 是 停止 位 ， 其 值 总 是 “1”。 传输 
数据 的 典型 值 为 8 ( 即 1 字 节 )。 奇 偶 校 验 位 用 于 接收 器 检测 传输 数据 是 否 出 错 。 
只 有 错误 个 数 为 奇数 时 才能 被 检测 到 。 再 次 ， 接 收 器 和 传输 器 在 奇偶 校 验 位 和 停止 
位 需 一 致 。 

本 市 会 使 用 简单 的 UART 通信 模块 ， 用 于 传输 八 个 数据 位 ， 没 有 奇偶 校 验 位 ， 
有 一 个 停止 位 ， 结 构 如 图 4. 15 所 示 。 











E 数据 位 say WERE 
pag Eet » HER, — stat 
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图 4.15 包含 起 始 位 、8 数据 位 、 停 止 位 的 帧 实例 


1. UART 通信 模块 
本 节 将 设计 UART 通信 模块 ， 工 作 在 波 特 率 为 9600， 其 结构 如 图 4. 15 所 示 。 
将 在 Nexys -4 板 中 实现 该 设计 ， 该 板 集 的 晶振 为 100MHz。 通 信 模 块 的 外 部 接口 


如 下 : 
entity UART_comm is 
port (clk : in std_logic; -- board's dock (100 MHz) 
WR : in std logic; -- write strobe (to send data to PC) 
DIN :in std logic vector (7 downto 0); ~ data to send 
DOUT : out std logic vector (7 downto 0); — -- data received 
TX ready : out std logic; -- ready to transmit 
RX ready : out std logic; -- received data are available 
TXD : out std_logic; -- transmission line 
RXD : in std logic); -- reception line 


end UART comm; 

这 里 ，clk 是 板 集 时 钟 信号 。 通 信 线 路 TXD 和 RXD 用 于 双向 串 行 数据 传输 。 
DIN 是 FPGA 传输 到 主机 PC 〈 或 其 他 器 件 ) 的 字 节 。DOUT 是 从 主机 PC (或 其 他 
AEF) 中 接收 的 数据 字 节 。WR 是 输入 信号 ， 即 DIN 总 线 上 的 数据 准备 好 并 必须 传 
输 。 当 模块 完成 最 后 一 个 通信 周期 时 ， 插 入 输出 TX ready 和 RX_ready， 且 准备 好 
传输 更 多 数据 (TX_ready ) ， 或 者 刚 接收 数据 并 准备 好 处 理 (RX ready) 。 模 块 不 
提供 任何 数据 缓冲 ， 因 此 其 他 FPGA 逻辑 必须 保证 当 TX. ready 没有 插入 时 不 会 提 
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供 新 数据 。 

为 了 支持 选择 的 波 特 率 (9600 位 /gs) ， 输 入 时 钟 信号 (100MHz) 必须 分 为 
108/9600=10416， 通 信 线 路 必须 在 位 周期 的 中 间 采 样 / 写 人 。 模 块 工作 由 初始 的 
100MHz 时 钟 信号 控制 。 

设计 传输 器 比 接收 器 简单 。 图 4.16 所 示 流 程 图 描述 了 控制 操作 (输出 在 
VHDL 中 定义 )。 控 制 FSM 具有 三 个 状态 ， 即 READY, LOAD_BIT 和 SEND. BIT, 
当 准 备 好 从 FPGA 逻辑 中 接收 更 多 数据 并 通过 UART 传输 时 ，FSM 处 于 READY 状 
态 。 基 本 上 ， 这 是 等 待 状态 上 且 不 断 用 逻辑 值 “1” 驱 动 TXD 通信 线路 ( 即 该 线路 
闲置 )。 信 号 TX_bitIndex 内 存 通过 TXD 线路 传输 下 一 位 的 索引 ; 该 索引 的 范围 从 0 
(起 始 位 ) 到 9 (停止 位 ) 。 信 号 TX_div 是 计数 器 ， 人 允许 位 通过 TXD 线路 以 选 定 的 
波 特 率 传递 ; 它 的 范围 从 0 计数 到 10416 (最 大 值 内 存在 常量 CLK_DIV 中 ) 。 在 
READY 状态 ， 计 数 器 复位 为 0。 一 旦 通过 WR 信号 传输 请 求 ， 则 FSM 组 成 帧 传输 
并 将 其 状态 改变 为 LOAD_BIT。 帧 内 存在 10 位 信号 TX. frame 中 ， 具 有 一 个 起 始 位 





TX ready <= '1'; 
TX_bitindex <= 0; 
TXD <='1'; 
TX_div <= (others => '0'); 
if (WR = '1') then 
TX frame <='1' & DIN & '0'; 


TX ready <= '0'; 


TX. bitIndex <= TX bitlndex + 1; 
TXD <= TX, frame(TX bitlndex); 
TX div <= (others => '0'); 


TX ready <= '0'; 
TX div <= TX div + 1; 





Al 4.16 UART 传输 的 流程 图 
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( *0"), 3B DIN 输入 的 8 个 数据 位 和 一 个 停止 位 ("1"), ， 如 图 4. 15 所 示 。 在 
LOAD_BIT 428, FSM 解除 TX. ready 信号 ， 并 以 帧 中 的 一 位 驱动 TXD 通信 线路 。 
传输 的 这 个 位 由 TX_bitIndex 指 代 。 同 时 ，TX_bitIndex 增加 并 指向 帧 中 要 传输 的 下 
一 位 > 最 后 ， 状 态 SEND_BIT 以 前 面 选 择 的 状态 位 持续 驱动 TXD 线路 ， 直 到 CLK_ 
DIV 时 钟 周 期 (频率 100MHz) 通过 。 到 现在 , 在 LOAD. BIT 状态 下 ， 下 一 位 从 帧 
中 取出 并 驱动 TXD 线路 。 一 旦 帧 最 后 的 (停止 位 ) 位 被 传输 ， 则 FSM 返回 READ- 
Y 状态 ， 等 待 来 自 其 他 FPGA 电路 的 新 数据 到 达 。 

接收 器 更 复杂 一 点 。 基 本 上 ， 它 必须 永久 监控 RXD 线路 ， 直 到 检测 到 传输 从 
“D (WE) 变 为 “0”( 起 始 位 )。 一 旦 确定 了 新 到 的 帧 的 起 始 位 ， 则 接收 器 必须 
等 待 半 个 波 特 率 周期 ， 然 后 采样 第 一 位 〈 起 始 位 ) 。 然 后 ， 保 留 的 9 位 〈 八 个 数据 
位 和 一 个 停止 位 ) 必须 从 RXD 线路 读 取 ， 时 间 区 间 等 于 选择 的 波 特 率 周 期 。 图 
4. 17 所 示 流 程 图 描述 了 接收 器 的 行为 。 








RX ready <= '0'; 
RX div <= (others => '0'); 
RX_bitindex <= 0; 


RX_ready<='0'; 、 
RX_div <= RX_div + 1; 





RX ready <= '0'; 

RX bitlndex <= RX_bitIndex + 1; * RX ready «- '0'; 
RX_frame(RX_bitindex) <= RXD; RX div «- RX div 4 1; 
RX div <= (others => '0'); = ze 


RX ready <= '0'; 
DOUT <= RX_frame(8 downto 1); 
RX_div <= (others => '0'); 





RX_ready <='1'; 
RX_div <= (others => '0'); 


图 4.17 UART 接收 的 流程 图 
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接收 器 控制 FSM 具有 六 个 状态 ， 即 READY, DETECT_START_BIT, PUT BIT, 
READ_BIT，DATA_READY 和 DONE。 当 等 待 新 数据 到 达 RXD 线路 时 ，FSM 为 
READY 状态 。 信 号 RX ready 撤销 ， 表 明 目 前 还 没有 接收 到 数据 。 信 号 RX_div 是 
计数 器 ， 类 似 前 面 描 述 的 TX_div， 人 允许 以 选 定 的 波 特 率 通 过 RXD 线路 接收 位 ; 它 
从 0 计数 到 5208 (10416/2， 波 特 率 周期 的 一 半 ， 存 在 常量 CLK_DIV_HALF 中 ) ， 
或 从 0 计数 到 10416 ( 波 特 率 周期 ， 存 在 常量 CLK DIV 中 )。 在 READY RAF, 
计数 器 置 为 0。 信 号 RX_bitIndex 存储 来 自 RXD 线路 下 一 位 的 帧 索引 ; 它 的 范围 从 
0 GERE) 到 9 (停止 位 )。 在 状态 READY, RXD 信号 是 不 断 被 采样 的 ， 直 到 检 
测 到 传输 从 “1” 变 为 “0”。 

一 旦 检测 到 起 始 位 ， 则 FSM 状态 改变 为 DETECT_START_BIT。 在 这 个 状态 下 ， 
RX div 计数 器 在 每 个 时 钟 周期 (100MHz) 加 1， 直 到 达到 值 CLK DIV HALF ( 意 
味 着 过 去 了 一 半 的 波 特 率 周期 ，RXD 线路 的 起 始 位 被 采样 ) FSM 状态 改变 为 PUT 
_BIT。 在 PUT_BIT 状态 ，FSM 采样 RXD 通信 线路 并 把 从 接收 帧 RX_frame 中 提取 
的 位 存储 在 由 RX_bitIndex 指明 的 位 置 。 同 时 ，RX_bitIndex 增加 并 指向 接收 的 帧 的 
下 一 位 。 下 一 状态 READ_BIT 为 等 待 状态 ， 在 最 后 一 位 从 RXD 线路 采样 后 计数 ， 
直到 CLK_DIV (100MHz) 时 钟 周期 完成 。 到 此 ， 下 一 位 在 PUT. BIT 状态 从 RXD 
线路 采样 。 一 旦 最 后 一 位 (停止 位 ) 采样 后 ，FSM 将 状态 改变 为 DATA, READY, 
在 这 个 状态 ， 帧 的 信息 位 就 送 到 输出 DOUT， 供 其 他 FPGA 电路 使 用 。 起 始 位 和 停 
止 位 (索引 分 别 为 0 和 9) BER. RAY FSM 状态 是 DONE， 在 这 个 状态 插入 信 
号 RX_ready， 用 于 指明 新 数据 被 接收 ， 并 可 由 DOUT 输出 。 然 后 ，FSM 返回 到 状 
态 READY， 等 待 新 数据 到 达 RXD 线路 。 

描述 接收 器 和 传输 器 的 VHDL 代码 如 下 : 


library IEEE; 

use IEEE.std logic 1164.all; 

use IEEE.std logic unsigned.all; 

--9600 baud rate, 8 data bits, no parity, | stop bit 
entity UART comm is 


port (clk : in std logic; -- board's dock (100 MHz) 
WR ; in std logic; -- write strobe (to send data to PC) 
DIN : in std logic vector (7 downto 0); -- data to send 
DOUT : out std logic vector (7 downto 0); — -- data received 
TX ready : out std logic; -- ready to transmit 
RX ready : out std logic; -- received data are available 
TXD : out std logic; -- transmission line 
RXD : in std logic); -- reception line 


end UART comm; 
architecture Behavioral of UART. comm is 


--CLOCK 
--100 MHz/9600 = 10416 = 0x28B0 
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constant CLK_DIV : std logic vector(13 downto 0) := "10" & x"8B0"; 
--100 MHz/9600/2 = 5208 = 0x1458 
constant CLK DIV HALF : std_logic_vector(12 downto 0) := "1" & x"458"; 


--TRANSMISSION 
signal TX div: std_logic_vector(13 downto 0) := (others => '0’); 
--frame = | start + 8 data + | stop = 10 bits 


signal TX frame : std_logic_vector(9 downto 0) := "1' & x"ff" & '0'; 

type TX_TYPE is (READY, LOAD_BIT, SEND_BIT); 

signal TX_state, TX_next_state : TX_TYPE := READY; 

signal TX_bitIndex : natural; -- index of the next bit in TX_frame to be transferred 


--RECEPTION 

signal RX div : std_logic_vector(13 downto 0) := (others => '0'); 

signal RX_frame : std_logic_vector(9 downto 0); --1 start + 8 data + | stop = 10 bits 

type RX_TYPE is (READY, DETECT_START_BIT, READ_BIT, PUT_BIT, 
DATA_READY, DONE); 

signal RX state, RX next state : RX_TYPE := READY; 

signal RX bitlndex : natural; -- index of the next bit in the RX_frame to be received 


TX state transition: process (clk) 
begin 
if (rising edge(clk)) then 
TX. state <= TX next state; 
end if; 
end process TX state transition; 


TX output logic: process (clk) 
begin 
if (rising edge(clk)) then 
case TX state is 
when READY => 
TX ready <= '1'; 
TX_bitIndex <= 0; 
TXD <= "1" -- idle 
TX div <= (others => '0'); 
if (WR = '1') then 
TX frame <='1' & DIN & '0'; 
end if, 
when LOAD BIT => 
TX ready <= '0'; 
TX div <= (others => '0'); 
TX bitlndex <= TX bitIndex + 1; 
TXD <= TX frame(TX bitlndex); 
when SEND BIT => 
TX ready <= '0'; 
TX div <= TX div + 1; 
end case; 
end if; 
end process TX output logic; 
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TX next state logic: process (TX state, WR, TX div, TX_bitlndex) 


begin 
case TX state is 
when READY => 
if (WR = '1') then 
TX_next_state <= LOAD_BIT; 
else 
TX_next_state <= READY; 
end if; 
when LOAD BIT => 
TX next state <= SEND BIT; 
when SEND BIT => 
if (TX div >= CLK DIV) then 
if (TX bitlndex = TX frame'length) then 
TX next state « READY; 
else 
TX next state <= LOAD BIT; 
end if; 
else 
TX next state <= SEND BIT; 
end if; 
when others => -- should never be reached 
TX_next_state <= READY; 
end case; 
end process TX_next_state_logic; 


RX_state_transition: process (clk) 
begin 
if (rising_edge(clk)) then 
RX state <= RX next state; 
end if; 
end process RX state transition; 


RX output logic: process (clk) 
begin 
if (rising edge(clk)) then 
case RX state is 
when READY => 
RX ready <= '0'; 
RX div <= (others => '0'); 
RX bitlndex <= 0; 
when DETECT START BIT => 
RX ready <= '0'; 
RX div <= RX div + 1; 
when PUT BIT => 
RX ready <= '0'; 
RX bitlndex <= RX. bitlndex + 1; 
RX frame(RX bitlndex) <= RXD; 
RX div <= (others => '0'); 
when READ BIT => 
RX ready <= '0'; 
RX div <= RX div + 1; 
when DATA READY => 
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RX ready <= '0'; 
DOUT <= RX frame(8 downto 1); --extract only data bits 
RX div <= (others => '0'); 
when DONE => 
RX ready <= '1'; 
RX div <= (others => '0'); 
end case; 
end if; 
end process RX_output_logic; 
RX_next_state_logic: process (RX state, RXD, RX div, RX bitlndex) 
begin 
case RX state is 
case RX state is 
when READY => 
if (RXD = '1') then --idle 
RX_next_state <= READY; 
else 
RX next state <= DETECT_START_BIT; --start bit detected 
end if; 
when DETECT. START. BIT => 
if (RX_div = CLK DIV. HALF) then 
RX next state <= PUT BIT; 
else 
RX next state <= DETECT. START. BIT; 
end if; 
when PUT BIT => 
if (RX_bitIndex = RX frame'left) then 
RX next state <= DATA READY; 
else 
RX next. state <= READ BIT: 
end if; 
when READ BIT => 
if (RX div = CLK DIV) then 
RX next state <= PUT BIT; 


else 
RX next state <= READ BIT; 
end if; 
when DATA READY => 
RX next state « DONE; 
when DONE => 
RX. next state <= READY; 
when others => -- should never be reached 
RX next state <= READY; 
end case; 
end process RX next state logic; 
end Behavioral; 

下 面 讲述 完成 的 UART 传输 器 /接收 器 如 何 用 于 从 主机 PC 中 接收 8 位 值 并 显示 
在 Nexys -4 板 最 右 侧 的 LED 电路 中 。 类 似 地 ， 从 LED 上 选择 的 8 位 值 送 入 主机 
PC 中 ， 电 路 如 图 4. 18 所 示 。 

电路 用 VHDL 语言 描述 如 下 : 

library ieee; 

use ieee.std_logic_1164.all; 

use ieee.std logic unsigned.all; 

entity main is 

port ( clk : in std logic; 
TXD : out std logic; 
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RXD : in std_logic; 

sw : in std_logic_vector(7 downto 0); 

LED : out std_logic_vector(7 downto 0)); 
end main; 


















clk 
RXD 
TXD 
Send 10 TX_ready 
times per RX_ready 
second 
DOUT 
sw 


图 4.18 电路 结构 图 ， 从 主机 接收 8 位 值 ， 通过 UART 接口 显示 在 
exys -4 板 集 的 LED 上 ， 传 输 8 位 值 到 主机 ， 每 秒 10 次 传输 值 到 主机 

architecture Behavioral of main is 

signal data_from_PC, data_to_PC : std_logic_vector(7 downto 0); 

signal WR : std_logic; 

constant CLK DIV : std logic vector(23 downto 0) := x"98967F"; --10 times per second 

signal div : std logic vector(23 downto 0) := (others => '0'); 

begin 


UART: entity work. UART_comm port map (clk => clk, WR => WR, 
DIN => data to. PC, DOUT => data from PC, TX ready => open, 
RX ready => open, TXD => TXD, RXD => RXD); 


process (clk) 
begin 
if (rising edge(clk)) then 
if (div = CLK DIV) then div <= (others => '0'); WR <= 个 
else div <= div + 1; WR <= '0'; 
end if; 
end if; 
end process; 


LED <= data from PC; 
data to PC <= sw; 


end Behavioral; 

在 这 个 例子 中 ， 板 集 开 关 的 状态 通过 UART 以 10 次 /s 的 频率 传输 。 时 序 由 简 
单 的 计数 器 控制 ， 从 0 计数 到 CLK_DIV 常量 中 定义 的 最 大 值 〈 等 于 第 0. 1s) 。 一 
旦 达到 最 大 值 ， 计 数 器 便 复 位 为 0， 插 入 WR 信号 ， 开始 传输 周期 。 一 旦 接收 到 
PC 的 数据 ， 便 立即 显示 在 板 集 LED 上 。 因 为 这 个 例子 中 涉及 的 处 理 和 传输 是 微 不 
足 道 的 ， 所 以 在 UART 通信 模块 生成 的 信号 RX_ready 和 TX_ready 是 不 被 要 求 的 ， 
且 不 被 左 连接 。 在 4.4 节 中 的 复杂 例子 中 ， 这 些 信号 将 会 被 频繁 使 用 。 

Main 实体 的 所 有 接口 必须 连接 到 相应 的 FPGA 的 引 脚 上 。 各 个 引 脚 的 位 置 可 
通过 板 集 文档 的 主 UCF 文件 中 找到 。 
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2. 应 用 软件 

一 旦 要 求 的 硬件 模块 完成 了 ， 就 必须 设计 能 够 连接 到 主机 PC 串口 〈 连 接 板 集 
的 接口 ) 的 软件 ， 通 过 UART 接口 与 FPGA 交互 。 如 下 C+ + 代码 给 出 了 用 于 Win- 
dows 系统 的 例子 : 


#include <windows.h> 
#include <iostream> 
#include <ctime> 


void set_up_serial_port(HANDLE& h); 
bool get_data_from_serial_port(unsigned& data); 
bool write_data_to_serial_port(unsigned data); 


const int NO DEFAULT. DEVICE = 2; 


using namespace std; 





int main(int argc, char argv[]) 

{ unsigned data, result; 
const int range min = 0, range max = Oxff; 
srand (static_cast<unsigned>(time(0))); 


char operation; 
do { cout << "Select operation (r - read switches, s - send a value, e - exit)" << endl; 
cin >> operation; 
switch (operation) 
{ case 'r* 
if (get data from serial port(result)) 
cout << "The result from FPGA is: " << hex << result << endl; 
break; 
case 's: 
//randomly generate an 8-bit number 
data = static_cast<unsigned>((double)rand() / (RAND_MAX + 1) * 
(range_max - range_min) + range min); 
/Isend data to the FPGA 
if (write_data_to_serial_port(data)) 
cout << "The data " << hex << data << 
" have been successfully transmitted to the FPGA" << endl; 
break; 
case 'e' ; 
break; 
default: 
cout << "Wrong parameter" << endl; 


) while (operation !='e'); 
return 0; 


} 


void set_up_serial_port(HANDLE& serial port) 
{ const long baud rate = 9600; = //baud rate 
char port name[] ="COM9:"; — //name of serial port (consult the Device Manager) 
//open up a handle to the serial port 
serial port = CreateFile(port name, GENERIC READ | GENERIC WRITE, 0, 0, 
OPEN EXISTING, 0, 0); 
if (serial port == INVALID HANDLE VALUE) //make sure the port was opened 
{ cerr << "Error opening port" << endl; 
CloseHandle(serial port); 
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//set up the serial port 





DCB properties; /Iproperties of serial port 
GetCommsState(serial port, &properties); //get the properties 
properties.BaudRate = baud rate; //set the baud rate 


//set the other properties 

properties.Parity - NOPARITY; 

properties.ByteSize = 8; 

properties.StopBits = ONESTOPBIT; 

SetCommstate(serial port, &properties); 
} 


bool get_data_from_serial_port(unsigned& data) 

{ unsigned long bytes_to_receive = 1; //number of bytes to receive from COM 
unsigned long bytes received; //number of bytes actually received from COM 
HANDLE serial_port = 0; set_up_serial_port(serial_port); 

/Ireceive data from the serial port 
ReadFile(serial_port,static_cast<void *>(&data),bytes_to_receive,&bytes_received, 0); 
if (bytes_received != bytes_to_receive) 
{ cerr << "Error reading file" << endl; 
CloseHandle(serial_port); 


return false; l 


CloseHandle(serial_port); 
data = “data & Oxff; 
return true; 


} 


bool write_data_to_serial_port(unsigned data) 
{ unsigned long bytes_to_send = 1; //number of bytes to send to COM 
unsigned long bytes_sent; //number of bytes actually sent to COM 


data = data & Oxff; 

HANDLE serial port = 0; set up serial port(serial port); 

/Isend data to the serial port 

WriteFile(serial port, static cast«void *>(&data), bytes to send, &bytes sent, 0); 
if (bytes sent != bytes to send) 


{ cer << "Error writing file" << endl; 
CloseHandle(serial port); 
return false; 


CloseHandle(serial port); 
return true; 


程序 开始 输出 菜单 选项 : “r” 为 读 取 板 集 开关 的 值 并 显示 在 屏幕 上 ,，“s” 为 
送出 产生 的 8 位 随机 值 到 板 集 并 用 LED 显示 ,“e” 为 退出 。 函 数 get_data_from_se- 
rial port 和 write. data, to. serial port 提供 读 / 写 接口 到 串口 。 在 set. up. serial. port pi 
数 的 帮助 下 两 个 函数 开始 设置 接口 。 后 者 创建 串口 的 句柄 (命名 为 port_name， 可 
以 在 Device Manager 中 找到 ) 和 OpenFile 函数 ， 并 设置 所 有 要 求 的 通信 参数 ， 比 如 
波 特 率 、 数 据 位 数 、 停 止 位 和 奇偶 位 。 一 旦 通信 模块 设置 完毕 ， 连 接 的 输入 /输出 
器 件 可 以 通过 ReadFile 和 WriteFile 函数 读 写 ， 完 成 之 后 句柄 关闭 。 用 户 接 口 同 图 
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4. 14。 本 书 将 在 4.4 节 介绍 更 复杂 的 例子 ， 许 多 数据 CRANE AY) 通过 
UART 传输 和 接收 。 


4.4” 软 硬件 协同 设计 和 协同 仿真 


发 展 高 效 和 可 靠 的 数字 系统 要 求 硬件 /软件 协同 设计 和 协同 仿真 。 有 不 同 的 方 
向 激励 协同 设计 和 协同 仿真 。 首 先 ， 在 早期 阶段 (通常 在 规范 阶段 )， 设 计数 字 
(特别 是 嵌入 ) 系统 的 大 多 数 方法 依赖 于 系统 的 软 硬 件 分 离 。 一 旦 分 离 完 成 ， 软 便 
件 由 不 同 的 人 /团队 独立 完成 。 先 验 分 离 有 一 系列 限制 (如 上 市 时 间 ， 次 优 设计 )， 
如 果 相 互 关联 的 软 硬 件 一 起 研发 ， 则 先 验 分 离 会 更 好 寻 址 '" 。 其 次 ， 协 同 仿真 可 
以 探索 不 同 的 设计 策略 ， 更 容易 测试 最 严格 的 用 于 硬件 加 速 的 系统 部 分 ， 与 此 同 
时 ， 时 序 控制 导向 部 分 可 以 更 高 效 地 在 软件 中 执行 。 

这 里 讲述 如 何 用 运行 软件 程序 的 PC 和 一 个 脱 机 的 基于 FPGA 的 频繁 执行 算法 
的 原型 机 板 实现 协同 设计 。 也 将 探索 通过 Digilent EPP 和 UART 的 通信 ， 基 于 图 
4.19 所 示 排 序 系统 的 实例 。 系 统 执行 如 下 行为 ; 








软件 硬件 


生成 16 个 非 负 整数 E 从 电脑 接收 数据 


将 数据 存储 
送 入 FPGA 进 行 处 理 — [- 在 输入 块 内 存 中 





接收 FPGA 处 理 结果 “上 | 将 数据 存储 在 


输出 块 内 存 中 


输出 结果 将 结果 输出 到 电脑 端 








图 4.19 数据 排序 的 协同 设计 工程 结构 


1) 在 软件 中 随机 生成 16 个 32 位 数据 ; 

2) 将 这 些 数据 送 入 FPGA; 

3) 用 和 迭代 奇偶 传输 网 络 〈 见 3.5 节 ) 在 FPCA 中 排序 数据 ; 

4) 将 结果 送 入 主机 PC; 

5) 显示 已 排序 的 数据 。 

这 里 测试 FPGA 通过 Digilent EPP 或 者 UART 通信 模块 的 帮助 接收 主机 PC 的 数 
据 并 存储 到 输入 内 存 模 块 的 情景 。 接 收 到 的 数据 由 3.5 市 描述 的 EvenOddTransition- 
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Iterative 模块 排序 。 模 块 EvenOddTransitionlterative 由 数据 的 数量 (N) 和 数据 的 位 
宽 (M) 参数 化 。 这 个 例子 设置 N =16，M =32。 模 块 要 求 输入 数据 由 单个 N xM 
位 的 寄存 器 input data 提供 ， 产 生 的 排序 结果 也 存 人 单个 NxM (16 x32 =512) 位 
的 寄存 器 sorted_data。 开 始 排序 时 ， 输 入 信和 号 sot en 必须 插入 ,一 旦 排序 结束 ， 
输出 信号 ready 变 成 高 电 平 。 
输入 内 存 模 块 是 简单 的 双 口 RAM， 其 中 接口 A 允许 8 位 数据 写 人 (由 主机 PC 
BA), %0 B 允许 512 位 数据 读 取 (由 模块 EvenOddTransitionlterative 读 取 ) 。 输 
入 内 存 模块 在 Xilinx CORE Generator 的 帮助 下 创建 ， 其 中 接口 A 的 宽度 为 8 ( 因为 
只 能 从 PC 中 传输 8 位 值 ) ， 接 口 A 的 深度 设置 为 64， 接 口 B 的 宽度 设置 为 256 
(允许 的 最 大 值 )。 因 为 需要 同时 读 512 位 ， 就 要 求 两 个 输入 内 存 。 
512 位 的 排序 结果 写 入 输出 内 存 。 输 出 内 存 模 块 也 是 简单 的 双 口 RAM， 其 中 接 
E A 允许 512 位 数据 写 入 (由 排序 模块 写 入 )， 接 口 B feiri 8 位 数据 (由 主机 
PC 读 取 )。 输 出 内 存 模块 在 Xilinx CORE Generator 的 帮助 下 创建 ， 其 中 接口 A 的 宽 
度 设置 为 256， 接 口 A 的 深度 设置 为 2 允许 的 最 小 值 )， 接口 B 的 宽度 设置 为 8 
(因为 只 需要 传输 8 位 值 到 PC)。 因 为 需要 同时 写 512 位 ， 所 以 需要 2 个 输出 内 存 。 
如 果 将 设计 运用 到 Spartan -6 或 者 Artix -7 FPGA ( Atlys 或 者 Nexys -4 原型 机 
板 ) ， 则 输入 和 输出 内 存 模块 各 需要 16 “Mik ABR RAM。 这 是 因为 在 CORE Gen- 
erator 中 使 用 最 小 区 域 优 化 算法 ， 对 于 每 个 内 存 类 型 都 会 使 16 个 模块 RAM 实例 化 
《 即 读 / 写 最 多 32 位 ) ， 与 此 同时 却 需要 处 理 512 位 。 对 于 Artix -7 FPGA, 其 他 可 
用 选项 允许 数据 宽度 为 72 位 的 固定 原 语 。 


4.4.1 Digilent 并 行 接口 的 软 硬 件 协 同 设计 


这 里 介绍 第 3 章 讲 过 的 数据 排序 例子 的 软 硬 件 协同 设计 ， 假 定 下面 的 功能 可 
行 。 主 硬件 模块 通过 USB 接口 与 主机 PC 通信 ， 根 据 Digilent EPP 协议 ， 填 人 输入 
内 存 ， 开 始 排序 模块 ， 当 排序 完成 后 ， 结 果 写 人 输出 内 存 ， 由 PC 进一步 读 取 。 图 
4.20 所 示 流 程 图 描述 了 主 模块 的 行为 (输入 和 输出 用 VHDL 语言 明确 ) 。 

TE WAIT FOR. DATA 状态 ,控制 FSM 等 待 新 数据 通过 EPP 数据 总 线 到 达 。 一 
旦 新 的 8 位 数据 被 接收 (由 插入 的 data. ready 信号 指明 ) ， 则 FSM 改变 为 WRITE_ 
INPUT 状态 ， 其 中 插入 信号 write enable inl 或 者 write_enable_in2， 由 PC. address 
中 位 5 的 值 决定 。PC_address 信号 由 EPP 通信 模块 的 输出 address 控制 ， 正 如 在 
4.3.1 15 1. 中 描述 的 一 样 ，EPP 保持 内 存 交 换 的 地 址 ， 由 主机 PC 设置 。 当 位 5 为 
"0" Hf, 电路 处 理 PC 接收 的 64 字 节 的 前 32 FE (因为 有 16 个 数据 ， 每 个 数据 4 
字 节 )。 在 这 种 情况 下 ， 通 过 插入 信号 write_enable_in1 ， 所 有 接收 的 数据 字 节 都 存 
储 在 第 一 个 输入 内 存 中 。 如 果 PC address 的 位 5 为 “1”， 则 电路 处 理 后 32 个 数据 
F (BRP AY 8 个 数据 ) ， 通 过 插入 信和 号 write_enable_in2 ， 这 些 必 须 存储 在 第 二 
个 输入 内 存 中 。 同 时 ， 在 WRITE INPUT 状态 ，FSM 检查 最 后 的 数据 〈 其 地 址 为 
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d 


WAIT FOR. DATA 


data ready = '1' 
1 


WRITE_INPUT 
if PC address(5) = '0' then 
write enable in1 «- '1'; 
else 
write enable in2 <='1'; 
end if; 


PC address - x"3f" 
1 


START. PROC 













WAIT. NEXT. ADDRESS 








start processing <= '1'; 









GET. RES 


write enable out <= '1'; 


图 4.20 数据 排序 的 协同 设计 工程 的 主 模块 流程 图 





0x3f =63) 是 否 被 接收 到 。 如 果 已 经 接收 到 ， 则 PSM 改变 其 状态 为 START. PROC, 
和 否则， 激活 WAIT NEXT ADDRESS RA, FSM 等 待 当前 EPP 传输 周期 结束 ， 然 后 
返回 到 WAIT. FOR. DATA 状态 寻找 通过 EPP 数据 总 线 接收 的 下 一 数据 。 

在 START_PROC 状态 ， 插 入 start. processing 信号 ， 激 活 排序 模块 EvenOddTran- 
sitionlterative。 在 这 个 状态 下 ，FSM 首先 检查 进程 是 否 开 始 ( 即 模块 EvenOddTran- 
sitionIterative 的 ready 信号 是 否 已 经 撤销 )， 如 果 进 程 已 经 开始 ， 则 进入 DO PROC 
状态 。 在 这 个 状态 下 ， 模 块 EvenOddTransitionlterative 的 输出 ready 被 监控 ， 而 且 一 
HA ready， 则 表明 排序 已 经 完成 ，FSM 改变 其 状态 为 GET_RES。 此 时 ， 排 序 结 
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果 存 人 输出 内 存 (通过 插入 write enable out 信号) FSM 返回 到 WAIT. FOR, DATA 
状态 ， 能 够 接收 新 的 用 于 排序 的 数据 。 请 注意 ， 一 旦 数据 写 人 最 后 一 个 内 存 位 置 
(0x63), ， 则 排序 立即 开始 。 

以 下 VHDL 代码 表明 如 何 明确 系统 的 硬件 部 分 : 


library ieee: 
use ieee.std logic 1164.all; 


entity main is 
port ( clk : in std logic; 

EppAstb : in std logic; 
EppDstb : in std logic; 
EppWr : in std logic; 
EppDB : inout std logic vector(7 downto 0); 
EppWait : out std logic); 

end main; 


architecture Behavioral of main is 


--communication signals 

signal data from PC, data to. PC1, data to PC2, data to PC: 
std logic vector(7 downto 0); 

signal data ready : std logic; 


~-processing signals 

signal start processing : std logic := '0'; --signal that starts the processing block 

signal ready : std logic := '0*; --signal that reports that processing block has finished 
type PROC TYPE is (WAIT FOR DATA, WRITE INPUT, WAIT NEXT ADDRESS, 

START PROC, DO PROC, WRITE RES, GET RES); 

- Signal next. proc. state, proc. state: PROC. TYPE := WAIT FOR DATA; 

--memory signals 

signal PC address: std logic vector(7 downto 0); 

signal write. enable inl, write enable in2, write enable out: std logic; 

signal FPGA write address, FPGA read address: std logic; 

signal PC read write address: std logic vector(5 downto 0); 

signal write item, read item: std logic vector(511 downto 0); 


begin 


Interface with dual-port memory 


memory from PC 1: entity work.|:NPUT MEMORY port map(CLKA => clk, 
WEA(0) => write enable in1, ADDRA => PC read write address, 
DINA => data from PC, CLKB => clk, ADDRB(0) => FPGA read address, 
DOUTB => read item(255 downto 0)); 


memory from PC 2: entity work..:NPUT MEMORY port map(CLKA => clk, 
WEA(0) => write enable in2, ADDRA => PC read write address, 
DINA => data from PC, CLKB => clk, ADDRB(0) => FPGA read address, 
DOUTB => read item(511 downto 256)); 


memory to PC 1: entity work.OUTPUT MEMORY port map (CLKA => clk, 
WEA(0) => write enable out, ADDRA(0) => FPGA write address, 
DINA => write item(255 downto 0), CLKB => clk, 
ADDRB => PC read write address, DOUTB => data to PC1); 
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memory to_PC_2 : entity work.OUTPUT_MEMORY port map (CLKA => clk, 
WEA(0) => write enable out, ADDRA(0) => FPGA write address, 
DINA => write item(511 downto 256), CLKB => clk, 
ADDRB => PC read write address, DOUTB => data_to_PC2): 


data to PC <= data to PC1 when PC address(5) = 0 else data to PC2; 
PC read write address <= '0' & PC address(4 downto 0); 


FPGA read address <= '0'; 
FPGA write address <= '0'; 


EPP: entity work.EPP interface port map (EppAstb => EppAstb, EppDstb => EppDstb, 
EppWr => EppWr, EppDB => EppDB, EppWait => EppWait, 
address => PC_address, data_ready => data_ready, 
data_to_PC => data_to_PC, data_from_PC => data_from_PC); 


state_transition: process (clk) 
begin 
if (rising_edge(clk)) then 
proc_state <= next_proc_state; 
end if; 
end process state_transition; 


output_logic: process (clk) 
begin 
if (rising_edge(clk)) then 
start_processing <= '0'; 
write enable in1 <= '0*; 
write enable in2 <= '0*; 
write enable out <= '0'; 
case proc state is 
when WAIT FOR DATA => 
when WRITE INPUT => 
if PC address(5) = '0' then 
write enable in1 <= '1'; 
else 
write enable in2 $= '1*; 
end if; 
when WAIT NEXT. ADDRESS => 
when START PROC => 
start processing <= '1*; 
when DO PROC => 
start processing <= '1'; 
when GET RES => 
write enable out <= '1'; 
when others =>  --should never be reached 
end case; 
end if; 
end process output logic; 
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next state logic: process (proc state, data ready, PC address, ready) 
begin 
case proc state is 
when WAIT FOR DATA => 
if (data ready = '1') then 
next proc state « WRITE INPUT; 
else next proc state <= WAIT FOR DATA; 
end if; 
when WRITE INPUT => 
if (PC address = x"3f") then --last address, input data transfer completed 
next proc state <= START PROC; 
else next proc state <= WAIT NEXT. ADDRESS; 
end if; 
when WAIT NEXT. ADDRESS => 
if data ready = '0' then 
next proc state <= WAIT FOR. DATA; 
else next proc state <= WAIT NEXT. ADDRESS; 
end if; 
when START. PROC => 
if (ready = '0') then --processing started 
next_proc_state <= DO_PROC; 
else next_proc_state <= START_PROC; 
end if; 
when DO_PROC => 
if (ready = '1') then--processing finished 
next_proc_state <= GET_RES; 
else next_proc_state <= DO_PROC; 
end if; 
when GET_RES => 
next proc state <= WAIT FOR DATA; --write the result to the output memory 


when others => --should never be reached 
next_proc_state <= WAIT_FOR_DATA; 
end case; 


end process next_state_logic; 


sort: entity work.EvenOddTransitionlterative 
generic map (M => 32, N => 16) 
port map (clk => clk, sort_en => start_processing, ready => ready, 
input_data => read_item, sorted_data => write_item); 


end Behavioral; 


从 软件 角度 考虑 ， 主 函数 给 了 用 户 两 个 选择 : OLER 16 个 32 位 的 无 符号 
数据 ， 送 到 FPCA ， 排 序 ， 接 收 结果 并 显示 ， 或 者 四 退出 。 主 函数 的 C+ + 代码 
如 下 : 


#include <windows.h> 
#include "dpcdefs.h" 
#include "dpcutil.h" 
#include <iostream> 
#include <ctime> 


const int INITIALIZATION_FAILED = 1; 
const int NO DEFAULT. DEVICE = 2; 
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const int INTERNAL_ERROR = 3305; //internal error in DPCUTIL 
const int devNameLength = 16; 
char nameDevice[devNameLength+1]; 


void SendDataToFPGA(unsigned* data, unsigned size); 

bool WriteData(HANDLE hif, unsigned address, unsigned data); 
void ReceiveResultFromFPGA(unsigned* data, unsigned size); 
bool ReadData(HANDLE hif, unsigned address, unsigned& data); 


const unsigned N = 16; 
const unsigned M = 32; 


using namespace std; 


int main(int argc, char argv[]) 
{ ERC error_code; 
if ( !Dpelnit(&error_code) ) //before using DPCUTIL API functions, call Dpclnit 
return INITIALIZATION_FAILED; //error occurred while initializing 
//obtain the index of the default device in the Device Table 
int idDevice = DvmgGetDefaultDev(&error code); 
if (idDevice == -1) /no devices in the Device Table 
{ cerr << "No default device"«« endl; 
cerr << "Run Digilent Adept and modify the Device Table (Settings tab, "<< 
"Device Manager option)"«« endl; 
return NO DEFAULT DEVICE; 


else //get the default device name 
DvmgGetDevName(idDevice, nameDevice, &error code); 


unsigned* data = new unsigned[N]; 
unsigned* result = new unsigned[N]; 
const unsigned range min = 0, range max = RAND MAX; 
srand (static cast«unsigned (time(0))); 
char operation; 
do 
{ cout << "Select an operation (s - sort data in FPGA, e - exit)" << endl; 
cin >> operation; 
switch (operation) 
{ case 's': 
for(int j = 0; j < N; j++) //randomly generate N M-bit numbers 
{  datalj] = static_cast<unsigned>((double)rand() / (RAND. MAX ) * 
(range_max - range_min) + range_min); 
data[j] = data[j] << M/2 | static_cast<unsigned>((double)rand() / 
(RAND_MAX) * (range_max - range_min) + range_min); 


} 

SendDataToFPGA(data, N); //send data to the FPGA 

cout << "Original data: " << endl; 

for(unsigned j = 0; j < N; j++) 

{ cout.width(8); cout << hex << datalj] << endl; 


} 

ReceiveResultFromFPGA(result, N); 

cout << "The result in FPGA is: "<< endl; 

for(unsigned j = 0; j < N; j++) 

{ cout.width(8); cout << hex << result[j] << endl: 


a 843 谋 入 模块 和 系统 设计 2 





break; 
case 'e' : break; 
default : cout << "Wrong parameter" << endl; 


) while (operation != 'e"); 


delete [] data; delete [] result; 
return 0; 


) 

函数 SendDataToFPGA 根据 两 个 参数 修改 ， 即 输入 32 位 值 的 矩阵 和 矩阵 大 小 。 
FPGA 电路 以 这 种 方式 设计 ， 即 当 最 后 一 个 数据 写 人 内 存 地 址 0x3f 时 开始 排序 〈 即 
当 第 64 个 8 位 字 从 PC 端 接收 到 ) 。 这 也 是 为 什么 当 处 理 少 于 16 个 32 位 数据 时 ， 
软件 将 用 0 填充 剩余 的 内 存 位 置 。 因 此 ， 函 数 SendDataToFPGA 与 前 面 几乎 一 样 ， 
但 是 在 4.3. 1 节 2. 中 标记 为 “数据 传输 ”的 代码 修改 如 下 〈 即 不 是 单个 位 而 是 大 
小 为 32 位 值 的 矩阵 传输 到 FPGA) : 

for (unsigned n = 0; n < size; n++) 

if (IWriteData(hif, n, data[n])) return; 
if (size*4*8 < N*M) //fill in the remaining memory positions with 0 and finish writing 


for (unsigned n = size; n < N*M/8/4; n++) 
if (IWriteData(hif, n, 0)) return; 


函数 WriteData 将 32 位 数据 分 为 四 个 8 位 数据 传输 到 FPCGA。 函 数 首先 明确 数 
据 送 入 和 内 存 的 地 址 。 内 存 地 址 存在 通信 模块 的 寄存 器 0x00。 然 后 数据 的 一 字 节 
写 人 寄存 器 0x01 。 注 意 传输 32 位 数据 需要 四 个 地 址 /数据 写 周期 。 代 码 如 下 : 


bool WriteData(HANDLE hif, unsigned address, unsigned data) 
( ERC error. code; unsigned char idData; unsigned idReg; 
for (int b = 0; b < M/8; b++) //M/8 transactions are needed to send an M-bit data item 
{  idData = address * M/8 + b; //specify address to which to write to 
idReg 7 0x00; //send address 
//send a single data byte (idData) to the register idReg 
if ('DpcPutReg(hif, idReg, idData, &error code, 0)) 
( DpcCloseData(hif, &error code); // dose the communications module 
cerr << "DpcPutReg failed." << endl; 
return false; 


} 

idReg = 0x01: idData = (data >> b*8) & Oxff; 

l/send a single data byte (idData) to the register idReg 

if (DpcPutReg(hif, idReg, idData, &error code, 0)) 

{ DpcCloseData(hif, &error code); //close the communications module 
cerr «« "DpcPutReg failed." «« endl; 


return false; 
} 
} 
return true; 


} 


ReceiveResultFromFPGA 函数 与 4.3.1 452. 一 样 ， 除 了 两 个 地 方 做 了 改变 ， 即 
参数 列表 调整 为 能 够 接收 已 排序 的 数据 (size) 和 矩阵， 以 及 数据 传输 在 以 下 循环 中 
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完成 : 


for (unsigned n = 0; n < size; n++) 
if (IReadData(hif, n, data[n])) return; 


ReadData 函数 的 代码 如 下 。 再 次 ,将 32 位 数据 返回 FPGA 需要 一 些 数据 读 
周期 。 


bool ReadData(HANDLE hif, unsigned address, unsigned& data) 
{ ERC error_code; unsigned char idData; unsigned idReg; 
data = 0; 
//M/8 transactions are needed to receive an M-bit data item 
for (int b = 0; b < M/8; b++) 
{  //specify address which to read from 
idData = address * M/8 + b; 
idReg = 0x00; //send address 
//send a single data byte (idData) to the register idReg 
if (IDpcPutReg(hif, idReg, idData, &error_code, 0)) 
{ DpcCloseData(hif, &error_code); //close the communications module 
cerr << "DpcPutReg failed." << endl; 
return false; 





} 

idReg = 0x05; 

/Iget a single data byte (idData) from the register idReg 

if (IDocGetReg(hif, idReg, &idData, &error code, 0)) 
DpcCloseData(hif, &error code); //close the communications module 
cerr «« "DpcGetReg failed." «« endl; 
return false; 

) data 7 data | (idData «« b*8); 

) 


return true; 


) 
一 旦 软件 和 硬件 完成 ， 就 可 以 开始 测试 工程 了 。 用 户 接口 举例 如 图 4.21 所 示 ， 
其 中 随机 生成 的 输入 数据 以 降序 排列 。 


4.4.2 UART 接口 的 软 硬 件 协同 设计 


顶层 硬件 模块 的 功能 非常 相似 于 前 面 所 描述 的 功能 。 唯 一 的 区 别 是 使 用 UART 
通信 模块 而 不 是 Digilent EPP 通信 模块 。 描 述 主 模块 行为 的 流程 如 图 4. 22 所 示 
(输入 和 输出 由 VHDL 明确 ) 。 

存 人 输入 内 存 模块 和 返回 分 类 结果 到 PC 的 顺序 步 又 比 EPP 通信 模块 更 复 
杂 ， 因 为 没有 专用 地 址 寄存 器 。 因 此 ， 所 有 通过 UART 接收 的 数据 字 节 按 顺 序 
先后 写 入 输入 内 存 ， 地 址 从 0x00 开始 ， 直 到 最 后 一 个 地 址 0x3f (第 64 个 数据 
字 节 ) 。 

在 RESET 状态 ， 模 块 初 始 化 信号 PC address 为 0x00 ， 并 进入 WAIT_FOR_ 
DATA 状态 。 在 WAIT_FOR_DATA 状态 ， 模 块 等 待 新 数据 通过 RXD 到 达 。 一 
且 接 收 到 新 的 8 位 数据 (由 插入 的 RX_ready 信号 指明 ) ， 则 控制 PSM 改变 其 
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Select an operation Cs ~ sort data in FPGA, e ~ exit? 


s 
Ualues successfully written to the FPGR. 
Original data: 
€ ?c 
484141f5 
?5bd2ee9 
204b6626 
347e5fed 
77a78a16 
ee33165 
47921a9e 
74ae7114 


"71a55e?b 

Values successfully received from the FPGA. 
The result in FPGA is: 

7811883a 

77a70a16 

?5bd2ee9 

74ae7114 


3c3949"c 
347eSfed 
204hb6626 
f£901ec3 
ee33165 
26023b 


图 4.21 FPGA 中 的 排序 结果 ， 通 过 Digilent EPP 与 主机 交流 


状态 为 WRITE_INPUT， 此 时 插入 信号 write enable inl 或 者 信号 write_enable_ 
in2， 具 体 由 PC. address 位 5 的 值 确定 。 当 位 5 为 “0” 时 ,电路 处 理 从 PC 中 
接收 到 的 64 字 节 中 的 前 32 FE (因为 有 16 个 数据 ， 每 个 数据 4 字 节 ) 。 在 这 
种 情况 下 ， 通 过 插入 信号 write_enable_in1 ,将 所 有 接收 到 的 数据 字 节 存储 在 第 
一 个 输入 内 存 。 如 果 位 5 是 “1”， 则 电路 处 理 后 32 字 节 ， 通 过 插入 信号 write 
_enable_in2 ， 存 储 在 第 二 个 输入 内 存 。 下 一 状态 是 INC_ADDRESS， 此 时 ，PC 
_address 信号 增加 ， 测 试 最 后 一 个 数据 (地址 为 0x3f =63) 是 否 已 经 被 接收 。 
如 果 已 经 接收 到 最 后 一 个 数据 ， 则 PSM 改变 为 START_PROC 状态 ,否则 再 次 
激活 状态 WAIT_FOR_DATA 去 寻找 下 一 个 被 接收 的 数据 。 

在 START. PROC 状态 插入 start_processing 信号 ， 激 活 排 序 模块 EvenOd- 
dTransitionlterative。 在 这 个 状态 下 ，FSM 首先 检查 排序 是 否 已 经 开始 ( 即 模块 
EvenOddTransitionlterative 的 ready 信号 是 否 撤销 ) ， 如 果 已 经 开始 ， 则 进入 DO 
PROC 状态 下 。 在 这 个 状态 下 ，EvenOddTransitionIterative 的 输出 ready 被 监控 ， 
且 一 且 插 入 ， 则 表明 排序 完成 ，FSM 状态 改变 为 CET_RES ， 激 活 write_enable_ 
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RESET 


PC address <= (others => '0'); 
















WRITE_INPUT 


write_enable_out <='1'; 
if (PC_address(5) = '0') then 
write enable in1 <='1'; 


0 
E 
else 


write enable in2 <= '1'; 1 
end if; 


INC ADDRESS 
if (PC address - x"3f") then 
start processing <= '1'; 
PC address <= (others => '0'); 
else 
PC address <= PC address + 1; 
end if; 1 





1 


0 
TX ready ='1' d 


1 
















NC OUT A 
PC address <= PC, address + 1; 
if (PC address = x"3f") then 

PC address <= (others => '0!); 
end if; 


PC address = x"3f" 


图 4.22 数据 排序 协同 设计 工程 的 主 模块 流程 图 (使 用 UART 接口 ) 


start processing <= '1'; 
PC address «- (oth 





out 信号 ， 人 允许 排序 结果 存储 到 输出 内 存 中 。FSM 改变 为 WRITE. RES 状态 ， 
监控 TXD ready 信号 Æ TXD 传输 是 否 可 用 。 如 果 可 用 ， 则 FSM 状态 改变 
为 SEND_RES， 激 活 信 号 WR， 指 明 新 数据 字 节 已 经 准备 传输 。 一 旦 开始 通过 
TXD 传输 数据 字 节 ， 则 FSM 进入 WRITE OUTPUT 状态 ， 撤销 WR 信号 ， 等 待 
传输 完成 。 一 旦 传输 完成 ， 在 INC OUT ADDRESS 状态 中 ，PC_address 信号 增 
加 。 如 果 最 后 一 位 结果 ， 即 地 址 为 0x3f 的 数据 字 节 已 经 传输 到 PC, NJ FSM 返 
回 到 RESET 状态 ， 和 否则 激活 状态 SEND_RES， 通 过 UART TXD 握 弃 后 面 的 结 
果 数 据 。 
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以 下 VHDL 代码 表明 顶层 模块 的 规范 ， 项 层 模块 连接 系统 的 所 有 硬件 ， 根 据 
图 4. 22 控制 工作 流程 。 


library ieee; 
use ieee.std logic 1164.all; 
use IEEE.std logic unsigned.all; 


entity main is 
port ( clk : in std logic; 
TXD : out std logic; 
RXD : in std logic); 
end main; 


architecture Behavioral of main is 


--communication signals 

signal data from PC, data to PC1, data to PC2, data to PC: 
std logic vector(7 downto 0); 

signal WR : std logic; 

signal TX ready, RX ready prev, RX ready : std logic := '1'; 


--processing signals 
signal start processing : std logic := '0'; --signal that starts the processing block 
signal ready : std logic = '0'; --signal that reports that processing block has finished 
type PROC TYPE is (RESET, WAIT FOR DATA, WRITE INPUT, INC ADDRESS, 
START PROC, DO PROC, WRITE RES, GET RES, 
SEND RES, WRITE OUTPUT, INC OUT ADDRESS); 
signal next proc state, proc state : PROC TYPE := RESET; 


--memory signals 

signal PC address: std logic vector(7 downto 0); 

signal write enable in1, write enable in2, write enable out: std logic; 
signal FPGA write address, FPGA read address: std logic; 

signal PC read write address: std logic vector(5 downto 0); 

signal write item, read item: std logic vector(511 downto 0); 


begin 


memory from PC. 1: entity work.INPUT MEMORY port map(CLKA => clk, 
WEA(0) => write enable in1, ADDRA => PC read write address, 
DINA => data from PC, CLKB => clk, ADDRB(0) => FPGA read address, 
DOUTB => read item(255 downto 0)); 


memory from PC 2: entity work.INPUT MEMORY port map(CLKA => clk, 
WEA(0) => write enable in2, ADDRA => PC read write address, 
DINA => data from PC, CLKB => clk, ADDRB(0) => FPGA read address, 
DOUTB => read item(511 downto 256)); 


memory to PC 1: entity work. OUTPUT. MEMORY port map (CLKA => clk, 
WEA(0) => write enable out, ADDRA(0) => FPGA write address, 
DINA => write item(255 downto 0), CLKB => clk, 
ADDRB => PC read write address, DOUTB => data to PC1); 


171 


e 基于 FPGA 的 系统 优化 与 综合 


172 





memory to PC 2: entity work.OUTPUT_MEMORY port map (CLKA => clk, 
WEA(0) => write enable out, ADDRA(0) => FPGA write address, 
DINA => write item(511 downto 256), CLKB => clk, 
ADDRB => PC read write address, DOUTB => data_to_PC2): 


data to PC <= data to PC1 when PC_address(5) = '0' else data_to_PC2; 
PC read write address <= '0' & PC address(4 downto 0); 


UART: entity work. JART comm port map (clk => clk, WR => WR, 
DIN => data to PC, DOUT => data from PC, TX ready => TX ready, 
RX ready => RX ready, TXD => TXD, RXD => RXD); 


FPGA read address <='0'; 
FPGA_write_address <= '0'; 


state_transition: process (clk) 
begin 
if (rising_edge(clk)) then 
proc state <= next proc state; 
end if; 
end process state transition; 


output logic: process (clk) 
begin 
if (rising edge(clk)) then 
start processing <= '0'; 
write enable in1 <='0'; 
write enable in2 <= '0'; 
write enable out <= '0'; 
WR <= '0'; 
case proc state is 
--START FILL IN INPUT MEMORY 
when RESET => 
PC_address <= (others => '0'); 
when WAIT_FOR_DATA => 
when WRITE_INPUT => 
if (PC_address(5) = '0') then 
write_enable_in1 <= '1'; 
else 
write enable in2 <= '1'; 
end if, 
when INC ADDRESS => 


if (PC address = x" 3f") then --last position, input data transfer completed 


start processing <= '1'; 
PC address <= (others => '0'); 
else 
PC address «- PC. address * 1; 
end if; 
--FINISH FILL IN INPUT MEMORY 
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--START PROCESSING 
when START. PROC => 
start processing <= '1'; 
when DO PROC => 
start processing <= "1" 
PC address <= (others => '0'); 
when GET_RES => 
write_enable_out <= '1'; 
when WRITE_RES => 
--FINISH PROCESSING 
-START SEND THE RESULT TO PC 
when SEND_RES => 
WR <='1'; 
when WRITE_OUTPUT => 
when INC_OUT_ADDRESS => 
PC address <= PC address + 1; 
if (PC address = x" 3f") then --last position, input data transfer completed 
PC address <= (others => '0'); 
end if; 
--FINISH SEND THE RESULT TO PC 
when others =>  --should never be reached 
end case; 
end if; 
end process output logic; 


next state logic: process (proc state, RX ready, PC address, ready, TX ready) 
begin 
case proc state is 
--START FILL IN INPUT MEMORY 
when RESET => 
next_proc_state <= WAIT_FOR_DATA; 
when WAIT_FOR_DATA => 
if (RX_ready = '1') then 
next proc state <= WRITE INPUT; 
else next proc state <= WAIT FOR DATA; 
end if; 
when WRITE. INPUT => 
next proc. state <= INC ADDRESS; 
when INC ADDRESS => 
if (PC address = x"3f") then --last position, input data transfer completed 
next_proc_state <= START_PROC; 
else next proc state <= WAIT FOR DATA; 
end if, 
--FINISH FILL IN INPUT MEMORY 
--START PROCESSING 
when START_PROC => 
if (ready = '0') then --processing started 
next_proc_state <= DO_PROC; 
else next_proc_state <= START_PROC; 
end if, 
when DO PROC => 
if (ready = '1') then --processing finished 
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next_proc_state <= GET_RES; 
else next_proc_state <= DO_PROC; 
end if; 
when GET_RES => 
next proc state <= WRITE RES; --write the result to output memory 
when WRITE RES => 
if (TX ready = '1') then 
next proc state <= SEND RES ; --ready to transmit 
else next proc state <= WRITE RES; 
end if; 
--FINISH PROCESSING 
--START SEND THE RESULT TO PC 
when SEND RES => 
if (TX ready = '0') then transmission started 
next proc state «- WRITE OUTPUT; 
else next proc state «- SEND RES; 
end if; 
when WRITE_OUTPUT => 
if (TX ready = '1') then 
next_proc_state <= INC_OUT_ADDRESS; 
else next_proc_state <= WRITE_OUTPUT; 
end if; 
when INC_OUT_ADDRESS => 
if (PC address = x"3f") then --last position, input data transfer completed 
next_proc_state <= RESET; 
else next_proc_state <= SEND_RES; 
end if; 
--FINISH SEND THE RESULT TO PC 
when others => --should never be reached 
next_proc_state <= RESET; 
end case; 
end process next_state_logic; 


sort: entity work.EvenOddTransitionlterative 
generic map (M => 32, N => 16) 
port map (clk => clk, sort_en => start_processing, ready => ready, 
input_data => read_item, sorted_data => write_item); 
end Behavioral; 


工程 的 软件 部 分 包括 主 函 数 ， 即 提供 用 户 交 互 ， 生 成 用 于 排序 的 无 符号 随机 整 
数 ， 创 建 串 口 句柄 ， 在 write data to serial port 函数 的 帮助 下 传输 数据 到 FPGA, 
在 get data, from. serial port 函数 的 帮助 下 接收 排序 结果 ， 输 出 原始 和 已 排序 数据 ， 
最 后 关闭 句柄 。 主 函数 用 C+ + 代码 描述 如 下 : 


#include «windows.h» 
#include <iostream> 
#include <ctime> 


void set_up_serial_port(HANDLE& h); 
bool get_data_from_serial_port(HANDLE h, unsigned* data, unsigned long data size); 
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bool write data to serial port(HANDLE serial port, unsigned" data, 
unsigned long size); 


const int NO DEFAULT DEVICE 2; 


const unsigned N = 16; //number of data items 
const unsigned M = 32; //size of each data item in bits 


using namespace std; 


int main(int argc, char* argv[]) 
{ using namespace std; 


HANDLE serial. port = 0; 
set up serial port(serial port); 





unsigned* data = new unsigned[N]; 
unsigned" result = new unsigned[N]; 


const unsigned range min = 0, range max = RAND MAX; 
srand (static cast«unsigned? (time(0))); 
char operation; 


do 
{ cout << endl << "Select an operation (s - sort data in FPGA, e - exit)" << endl; 
cin >> operation; 


switch (operation) 


case's’: 
for(int j = 0; j < N; j++) //randomly generate N M-bit numbers 
( data[j] = static_cast<unsigned>((double)rand() / (RAND MAX ) * 
(range max - range min) * range min); 
data[j] = data[j] << M/2 | static cast«unsigned»((double)rand() / 
(RAND MAX) * (range max - range min) * range min); 


write data to serial port(serial port, data, N); //send data to the FPGA 
cout << "Original data: " << endl; 
for(unsigned j = 0; j < N; j++) 
{ cout.width(8); 
cout << hex << data[j] << endl; 


get_data_from_serial_port(serial_port, result, N); //get the result of sort 
cout << "The result in FPGA is: " «« endl; 
for(unsigned j = 0; j < N; j++) 
{ cout.width(8); 
cout << hex << result[j] << endl; 


} 


break; 
case 'e': 
break; 
default: 
cout «« "Wrong parameter" «« endl; 


} while (operation != 'e'); 


delete [] data; 
delete [] result; 
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CloseHandle(serial port); //close handle 
return 0; 


) 


函数 set, up. serial port 5j 4.3. 2 972. 中 的 函数 一 样 。 剩 余 的 两 个 函数 get. data 
_from_serial_port 和 write_data_to_serial_port 调整 为 接收 三 个 参数 ， 即 串口 句柄 、32 
位 数据 矩阵 (G&A FPGA zi A FPGA) 和 和 矩阵 大 小 。 

函数 write data to serial port 送 16 个 32 位 无 符号 数 的 矩阵 data 到 串口 。 对 于 
每 个 数据 需要 4 字 节 缓冲 ， 缓 冲 常量 写 入 连接 的 COM 接口 。 函 数 有 以 下 C++ 
代码 : 


bool write data to serial port (HANDLE h, unsigned" data, unsigned long data size) 


{ unsigned long bytes sent = 0; //number of bytes actually sent to COM 
const unsigned BUF_SIZE = 4; 
char buffer[BUF_SIZE]; //buffer to store a data item to send 


unsigned new_data; 


for (unsigned i = 0; i < data_size; i++) 


new data = data[i]; 
for (unsigned j = 0; j < BUF. SIZE; j++) 
buffer[j] = (new. data & (Oxff << j*8) ) >> (j*8): 
WriteFile(h, static cast«void *>(buffer), BUF SIZE, &bytes sent, 0); 
if (bytes sent!- BUF SIZE) 
( cerr «« "Error writing file" «« endl; 


CloseHandle(h); 
return false; 


) 


return true; 


PR get. data, from. serial port 接收 FPGA 中 已 排序 的 数据 ， 存 在 大 小 为 32 位 的 
无 符号 数 和 矩阵 数据 中 。 对 于 每 个 数据 ， 通 过 从 连接 的 COM 接口 中 读 取 4 字 节 缓冲 
填充 。 


bool get_data_from_serial_port(HANDLE h, unsigned* data, unsigned long data_size) 
{ unsigned long bytes received = 0;//number of bytes actually received from COM 


const unsigned BUF_SIZE = 4; 
char buffer[BUF_SIZE]; //buffer to store 4 bytes to read from the FPGA 


unsigned new data; 
for (unsigned i = 0; i « data size; i++) 
{  //receive data from the serial port 
ReadFile(h, static_cast<void *>(buffer), BUF SIZE, &bytes received, 0); 


if (bytes_received != BUF_SIZE) 
cerr << "Error reading file" << endl; 
CloseHandle(h); 
return false; 
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new. data = 0; 
for (unsigned j = BUF. SIZE; j > 0; j-) 

new data = (new data << 8) | (buffer[j-1] & Oxff); 
data[i] = new data; 





return true; 
现在 ， 软 /硬件 协同 设计 工程 完成 且 可 被 测试 。 用 户 接口 同 图 4. 21。 
4.5 可 编程 片上 系统 


本 节 将 简要 介绍 Xilinx 的 APSoC ， 并 建议 一 些 基于 APSoC 的 设计 。Xilinx Zynq - 
7000 系列 的 APSoC 具有 工业 标准 ARM 双核 Cortex™ - A9 MPCore™PS 和 7 系列 的 
基于 FPGA 的 PL 组 合 逻 辑 片 、DSP 模块 、 内 存 和 其 他 授信 器 件 。ARM 双核 Corte- 
x™ — A9 MPCore™ PS 可 自动 使 用 ， 或 通过 高 性 能 接口 在 PL 执行 的 电路 中 交互 。PL 
可 以 产生 16 个 中 断 ， 由 PS 控制 ， 可 作为 电路 信号 指明 进程 完成 或 其 他 的 需要 。PS 
与 PL 之 间 的 交互 通过 以 下 接口 管理 [21 : 

1) 高 性 能 先进 可 扩展 接口 (Advanced cee Interface, AXI) 优化 高 带宽 
访问 PL 外 部 DDR 内 存 和 双 接 口 芯片 内 存 02,93] 。 总 共有 四 个 32/64 位 接口 可 通过 
FIFO 连接 PL 和 内 存 !31。 多 协议 DDR nude DDR3 支持 速度 高 达 
1333Mb/s， 人 允许 从 PS 和 PL 共享 访问 公用 存储 器 [3] 。 

2) 四 个 (2 从 2 主 ) 通用 接口 (General Purpose Interface, GPI) 优化 PL 访问 
PS 外 部 器 件 和 PS 访问 PL 寄存 器 [21 。 

3) 加 速 连贯 接口 (Accelerator Coherent Port, ACP) IFMA PL (其 中 可 能 执 
行 硬件 加 速 器 ) 连续 访问 PS 内 存 快速 缓冲 贮存 区 , 使 PS 和 PL 之 间 存 在 潜在 
paN, 

Xilinx ISE 和 Vivado 计算 机 辅助 设计 系统 支持 APSoC 设计 ， 且 允许 在 PL 中 配 
置 硬件 ，PS 连接 PL, PS 的 软件 开发 与 PL ribi 互 。 所 有 的 步骤 要 求 不 同 主题 

的 综合 知识 ， 在 这 里 没有 更 多 的 细节 了 ， 细 节 可 在 文献 [14] 中 找到 。 在 本 节 主 
要 注意 Xilinx APSoC 的 潜在 应 用 ， 用 于 解决 本 书 中 协同 设计 的 问题 使 完成 的 硬件 
电路 和 系统 关联 PS 中 的 运行 软件 (或 者 可 能 在 通用 电脑 通过 广泛 可 用 的 接口 与 
APSoC 交互 :31 ) 。 本 书 将 以 数据 处 理 开 始 ， 具 有 高 性 能 并 行 电路 ， 可 能 在 PL 中 高 
效 执行 ， 比 如 基于 网 络 的 排序 和 查找 ( 见 第 3.4 -3.6 节 )。 

图 4. 23 所 示 为 关于 一 个 潜在 应 用 ， 即 在 硬件 加 速 器 的 帮助 下 使 大 数据 集 在 软 
件 中 排序 。 假 定 PS 必须 将 存在 外 部 DDR 内 存 中 的 数据 (这些 数据 来 自 外 部 或 者 
由 PS 初步 创建 然后 复制 到 内 存 ) 排序 。 数 据 集 中 有 Y 个 数据 项 不 能 在 PL 中 排序 ， 
因为 PL 资源 不 够 。 考 虑 以 下 步骤 : 

1) PS 将 给 定 的 数据 集 分 为 可 以 在 PL 中 排序 的 子 集 ， 假 定 有 G 个 这 样 的 子 
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集 ， 每 个 子 集 有 N 个 数 a, DDR PL: 
ff dr: 
项 ; "TTA 1 每 个 子 集中 同时 快 
* HU aid i 并 行 排序 数据 ， 复 制 


2) 数字 C、N 和 DDR | DEOS e 已 排序 子 集 到 相同 内 
地 址 传输 到 PL， 之 后 通过 | 外 部 内 中 M ie (ph 








内 部 高 性 能 接口 从 DDR P Sub-set G4 

内 存 中 读 取 子 集 ， 在 每 个 | 2 合并 以 排序 了 集 mn - ne a 
已 排序 数据 

子 集中 排序 数据 ， 并 将 已 

排序 的 子 集 复制 到 DDR; 


3) 一 日 子 集 (提前 图 4.23 在 硬件 和 软件 合并 中 使 用 快速 排序 网 络 
定义 的 数量 ) 排序 完成 ，PL 便 产 生 专用 中 断 ， 通 知 PS 确定 的 已 排序 子 集 已 在 内 存 
中 ， 并 准备 好 进一步 的 处 理 ; 

4) PS 处 理 已 排序 的 子 集 (如 合并 ) ， 完 成 排序 。 

图 4. 24 所 示 为 其 他 的 潜在 应 用 。 第 一 个 系统 〈 见 图 4. 24a) 使 管道 (在 PL 中 
执行 ) 和 PS 交互 ，PS 使 用 在 管道 中 处 理 的 结果 。 有 三 个 模块 z: z 和 z3， 介 于 
管道 寄存 器 之 间 ， 解 决 将 在 第 5. 8 节 详 细 讲 解 的 问题 。 输 入 数据 从 外 部 DDR 内 存 
中 接收 ， 并 将 结果 复制 到 内 存 。PS 提供 初始 数据 并 处 理 进程 的 结果 。 最 后 ， 管 道 
的 输入 和 输出 在 PL 中 使 用 FIFO 内 存 。 这 样 的 高 速 处 理 让 许多 实际 算法 加 速 。 

图 4. 24b 所 示 为 其 他 潜在 的 通过 通用 接口 的 介 于 PS 和 PL 之 间 的 交互 。PL 通 
过 APSoC 引 脚 提供 支持 外 部 器 件 的 控制 。 第 5 章 将 会 讲述 使 专用 模块 执行 特殊 应 
用 功能 的 先进 FSM。 这 样 的 模块 可 从 PS 中 激发 ， 后 者 继续 其 功能 和 硬件 模块 。 这 
样 的 方法 允许 ， 尤 其 是 并 发 硬件 加 速 器 (对 于 软件 操作 ) 被 激活 / 退 激活 。 例 如 ， 
在 第 5 章 将 描述 允许 并 行 寻 找 众多 整数 的 最 大 公 因 数 的 加 速 器 。 

APSoC 用 于 试验 和 对 比 也 是 非常 高 效 的 。 例 如 ， 通 常 最 适用 的 算法 需要 从 众多 
可 用 算法 中 选择 (如 计算 和 比较 汉 明 权重 )。 需 要 注意 竞争 算法 的 可 靠 评估 需要 在 
相同 的 硬件 中 、 相 同 的 条 件 下 完成 。 对 于 这 样 的 目的 ， 可 以 使 用 以 下 技术 : 

1) 4E PL 的 不 同 区 域 执 行 的 竞争 器 件 ， 可 以 接收 相同 的 来 自 DDR 内 存 的 共享 
窗口 的 数据 集 ; 

2) 初始 数据 准备 好 ， 并 存储 在 内 存 子 部 分 S1 ，……… ，Sk， 以 这 种 方式 ， 子 部 
^r S, 由 器 件 k 拥有; 

3) 相同 的 数据 集 由 竞争 器 件 并 行 处 理 ; 

4) 结果 提供 给 PSB， 得 出 结论 。 

图 4. 25 所 示 系 统 实例 对 这 样 的 实验 提供 支持 。PL 具有 不 同 的 电路 ， 可 用 于 汉 
明 权重 计数 和 比较 。 可 以 执行 以 下 操作 : 

1) PS 发 送 请 求 到 PL， 激 活 所 有 的 器 件 并 开始 并 行 执行 ,在 请 求 任务 完成 之 
Hj, PS 和 /或 PL 估计 每 个 器 件 的 时 序 区 间 ; 

2) 一 且 任 何 器 件 解 决 问题 ， 结 果 存 储 在 内 存 共 享 窗口 的 相应 部 分 中 ， 联 合 中 
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操作 HFSM 块 控制 管道 






数据 ( 见 
图 5.8) 





a) 
PS: PL: 
1. 激活 HFSM 与 1. HFSM 使 能 外 
3t BE he zx os 部 器 件 的 快 ab "aep 
外 部 器 件 交流 msn n 控制 外 部 器 件 
2. 激活 块 加 
速 软件 操作 2. 为 选择 的 操 


作 ( 软 件 ) 加 速 


b) 
图 4.24 具有 管道 的 PS 的 相互 作用 (细节 见 第 5. 8 35) 
a) 在 PL 执行 b) 电路 自动 控制 外 部 器 件 


a a 
1. 生成 器 和 处 
Bi eee 计数 网 络 ， 基 于 
理 二 进 制 向 量 rà LUT 的 电路 ， 并 行 
生成 向 量 集 


计数 器 等 
2. 传 送 向 量 到 


外 部 存储 器 
执行 时 间 


3. 在 PL 中 分 析 结 果 


PS 也 可 以 在 解决 其 他 
问题 时 使 用 PL 的 结果 





图 4.25 支持 实验 和 比较 的 电路 系统 


断 产生 ， 请 求 PS 估计 电路 停止 。 

3) 一 旦 所 有 融 件 产生 所 有 结果 ，PS 确认 结果 的 正确 性 ， 估 计时 间 长 度 ; 输出 
最 后 的 分 析 并 得 出 结论 。 

实验 电路 〈 见 图 4. 25 的 右 侧 部 分 ) 的 选择 可 作为 软件 程序 的 加 速 器 (如 数字 
滤波 ) o 

图 4. 26 是 对 在 本 章 参考 文献 [15] 中 描述 过 的 二 进 制 向 量 和 矩阵 的 分 析 结 
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构 ， 具 有 PL 中 有 大 量 加 速 器 和 PS 软件 中 执行 的 子 系统 。 软 件 应 用 开发 使 用 C 语 

言 ， 并 执行 以 下 任务 : 中 从 主机 PC 中 获得 数据 ; @) 划 分 数据 ， 如 果 请 求 则 传输 数据 

到 PL; GA PL 中 得 到 结果 的 明确 应 用 分 析 ; OE PL 中 用 完成 的 硬件 支持 实验 。 
SVP a —— ——— 3 





w( A)/w(B) 
比较 结果 ec 


B= {bo bna? 


二 进 制 矩阵 / 流 | 

PS PS | 
权重 | 

和 矩阵 / 流 中 的 二 进 制 
向 量 的 已 排序 权重 


此 工作 中 提出 
完成 的 加 速 器 














图 4.26 分 析 仪 的 结构 


类 似 的 其 他 问题 ， 如 要 求 高 性 能 计算 可 以 被 解决 。 例 如 ， 因 为 片上 的 高 性 能 接 
口 可 用 ， 所 以 本 章 参考 文献 [16] 中 描述 的 许多 设计 可 以 快速 执行 ， 而 且 更 加 高 
效 。 在 本 章 参考 文献 [17] 中 提出 了 基于 FPGA 加 速 器 的 算法 ， 用 于 解决 布尔 可 
满足 性 问题 。 这 个 思想 是 当 在 软件 中 执行 其 他 请 求 任 务 时 ， 能 够 将 FPGA 用 于 布尔 
约束 传播 算法 。 这 样 的 划分 可 以 直接 传输 到 APSoC。 例 如 从 录像 带 处 理 、 辅 助 驾 
驶 、 通 信和 控制 的 角度 的 许多 其 他 应 用 ， 也 可 从 APSoC Hae Ai! 

可 理解 的 基于 APSoC 的 设计 实例 可 在 本 章 参考 文献 [14] 中 找到 ， 如 下 方法 
和 工具 在 本 章 参 考 文献 [14] 中 描述 过 : 

1) 在 Xilinx Vivado 环境 下 ，APSoC 的 设计 流程 和 设计 步骤 ; 

2) 指导 所 有 必须 步骤 ， 对 于 涉及 PS 和 PL 的 简单 工程 ， PS、PL fil APSC 之 
间 的 交互 ， 以 及 一 些 外 部 器 件 ， 比 如 开关 、 按 钮 、LED、 显 示 器 和 大 量 支 持 的 


模块 | ; 
3) 关于 设计 技术 的 许多 细节 和 具有 ZedBoard P! 和 Xilinx 评估 套件 ”的 原型 
机 板 ; 


4) 本 书 描述 的 大 多 数 工程 在 Xilinx APSoC 的 PL 中 执行 ， 软 件 在 PS 中 开发 
(使 用 工程 的 结果 )， 以 及 例证 PS 和 PL 之 间 不 同 模式 的 交互 ; 

5) PS 和 了 LL 之 间 通 过 外 部 DDR 内 存 的 数据 交换 ， 以 及 不 同 工 程 的 估计 结果 ; 

6) APSoC 的 软 / 硬 件 协同 设计 ， 例 证 更 复杂 的 工程 ， 例 如 来 自 数据 处 理 、 组 
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合 优化 、 软 件 程序 和 硬件 加 速 之 间 的 交互 ， 使 用 基于 分 层 和 并 行 有 限 状态 机 的 先进 
控制 器 ， 以 及 其 他 ; 


7) 对 不 同 工 程 使 用 中 断 ; 


8) 支持 涉及 通用 计算 机 软件 和 PS 与 PL 中 执行 不 同 电路 的 交互 实验 。 
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基于 层次 和 并 行 技术 规范 


摘要 一 一 本 章 将 回顾 基于 层次 和 并 行 技术 规范 的 设计 技术 。 首 先 ， 介 绍 层 次 图 
策略 (Hierarchical Graph Scheme，HGS) ， 使 复杂 数字 控制 算法 解体 高 效 描述 。 由 
HGS 描述 的 模块 是 基本 实体 ， 提供 技术 基础 ， 是 自动 、 完 整 、 潜 在 可 重复 使 用 的 
器 件 。 模 块 必须 设计 如 下 : 四 可 独立 于 其 他 模块 被 检验 ; @ 加 具有 明确 定义 的 外 部 接 
口 ， 从 而 可 在 不 同 规范 中 重复 使 用 。HGS (模块 ) 集 可 在 层次 有 限 状 态 机 (Hier 
archical Finite State Machine, HFSM) 中 采用 栈 存 储 器 执行 。 许 多 VHDL 例子 表明 
HFSM 克 许 执行 层次 算法 ， 并 且 如 果 要 求 递 推算 法 的 话 ， 也 支持 递 推 。 描 述 HFSM 
的 一 些 类 型 ， 给 出 可 综合 VHDL 模板 ， 可 对 特殊 问题 定制 化 。 也 讨论 并 行规 范 和 
并 行 HFSM。 许 多 全 功能 的 VHDL 例子 可 用 于 所 有 上 述 的 HFSM， 都 将 在 本 章 讲述 、 
评估 。 也 将 讲述 在 HFSM 模型 的 帮助 下 如 何 将 软件 程序 映射 到 硬件 中 。 最 后 提出 
HFSM 优化 技术 。 


5.1 模块 化 层次 结构 规范 


如 今 ， 软 件 和 硬件 的 发 展 越 来 越 相互 关联 了 。 在 各 个 领域 ， 以 舱 入 式 处 理 模 块 
的 形式 ， 重 点 已 经 从 通用 转向 专用 产品 ， 比 如 通信 、 工 业 自 动 化 、 车 载 电脑 和 家 用 
电器 1。 为 了 支持 专用 计算 , 提出 了 大 量 新 的 工程 解决 方案 和 技术 革新 。 有 将 器 
件 集成 到 芯片 上 的 趋势 ， 不 久 前 被 分 离 实现 自治 专用 集成 电路 (Application Specific 
Integrated Circuit, ASIC) 或 者 专用 标准 产品 (Application Specific Standard Product, 
ASSP) 。 在 过 去 将 ASIC/ASSP 和 周边 逻辑 装 在 一 起 ， 通 常 在 自治 FPGA 中 执行 ， 如 
今 ， 所 有 的 器 件 都 耦合 在 同一 片 微 芯片 上 。 例 如 ,在 4.5 节 简 要 介绍 过 的 Zynd - 
7000 所 有 可 编程 片上 系统 (APSoC ) ， 将 处 理 系统 (PS) 和 可 编程 逮 辑 (PL) 集 
成 到 同一 片 微 芯 片上 ， 且 通过 先进 接口 连接 。 

APSoC 可 以 运行 与 已 经 映射 到 硬件 的 并 行 处 理 器 件 (PE) 交互 的 软件 。 任 何 
PE 的 主要 目标 都 是 比 对 等 的 具有 相似 功能 的 软件 器 件 提供 更 佳 的 性 能 ， 在 软件 中 
这 些 功 能 由 C 函数 或 Java 方案 组 成 。 映 射 到 硬件 PE 的 软件 模块 的 相关 效率 (如 性 
能 ) 需要 被 测试 、 分 析 和 比较 。 因 此 ， 能 够 直接 在 硬件 电路 中 创建 典型 软件 结构 
功能 是 很 重要 的 。 本 章 讲述 硬件 的 模块 化 、 层 次 化 (包括 递归 ) 和 并 行 技 术 。 模 
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抉 化 和 层次 化 在 通用 程序 中 广泛 使 用 。 对 于 单 /多 核 自 治 内 置 单片机 ， 它 们 由 
大 多 数 专用 开发 系统 支持 ， 主 要 来 自 C 规范 。 在 许多 实际 案例 中 需要 硬件 加 速 器 ， 
即 通 过 并 行 硬件 电路 程序 的 最 关键 部 分 来 实现 高 性 能 。 因 此 ， 通 过 应 用 潜在 并 行 机 
制 映射 处 理 器 密集 型 的 软件 部 分 到 硬件 变 得 非常 重要 。 现 在 有 许多 方法 允许 模块 
化 、 层 次 化 和 并 行 性 在 硬件 中 实现 ， 一 些 相关 调查 见 本 章 参考 文献 [4]。 这 里 讲 
述 的 技术 基于 HFSM 模型 ， 比 潜在 可 用 方案 约束 少 ”“] ， 容 易 在 硬件 中 执行 ， 与 对 
应 的 软件 技术 是 一 致 的 。 已 知 模板 5 支持 该 模型 ， 这 些 模板 在 商业 计算 机 辅助 设 
il (Computer Aided Design, CAD) 系统 ， 比 如 Xilinx 的 ISE 中 是 可 综合 的 。 

本 章 的 主要 目的 是 开发 数字 电路 和 系统 的 综合 方法 ， 其 功能 可 以 以 层次 化 
(允许 递归 调用 ) 形式 表现 为 HGS， 具 有 如 下 形式 描述 ， 如 图 5. 1 所 示 。 


人 La] 


图 5.1 层次 图 策略 节点 
a) MUIR b) sd c) 三 角形 d) 入 口 节点 一 一 开始 节点 
g) 宏 指 令 h) fk, BARS i) 并 行 宏 操 作 
p =f edu dien MM de 











e) 出 口 节点 





HGS 是 直接 连接 图 ， AAR ( 见 图 S.1a). ZJE ( 见 图 5.1b) 和 三 角形 


( 见 图 5.1c) 节点 。 每 个 HES 有 一 个 入口 点 ， 是 矩形 节点 , 称 为 开始 (RA 
5.14), 一 个 出 口 点 ， 矩 形 节点 ， 称 为 结束 CULES. le) 。 其 他 矩形 节点 具有 微 指 


es eet teed eiie ( 见 图 5.1h)。 如 果 请 求 
的 话 ， 则 这 里 可 以 将 微 指令 赋值 到 开始 节点 和 结束 节点 。 任 何 微 指令 Yi 〈 见 图 
5.1f) 包括 微 操作 的 子 集 ， 即 来 自 集 Y = 1 ，…，。yA1 。 微 操作 是 输出 二 进 制 信 
。 任 何 宏 指令 Z, 组 成 宏 操 作 的 子 集 ， 即 来 自 集 Z= |z1，…zo| (UES. 1g) $ 
个 宏 操作 由 较 低 级 的 HGS 描述 ， 称 为 模块 。 如 果 宏 指令 具有 多 个 宏 操 作 ， 则 这 些 
ea ot eee 每 个 菱形 节点 包含 来 自 集 XU@ 的 一 个 元 素 ， 





其 中 X= x1, +, x ni i 9=101,，…，01| 是 逻辑 函数 集 。 逻 辑 条 
件 是 输入 信号 ， 通 信 测 试 结果 。 每 个 逻辑 函数 通过 提前 定义 的 步 序 计算 性 能 ， 步 序 
由 较 低级 的 HCS (模块 ) 描述 。 有 向 直线 〈 弧 线 ) 连接 输入 和 输出 节点 ， 与 普通 


图 策略 连接 方式 类 似 "“ 。 每 个 三 角 节 点 具有 表达 式 ， 产 生 与 这 个 节点 的 输出 相关 
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的 值 。 一 旦 控制 流程 通 三 角 节 点 ， 就 必须 选择 一 个 输出 ， 使 控制 流向 进程 〈《 见 图 
5. 1c 和 j 中 的 例子 ) 。 和 矩形 节点 k 的 输出 ， 具 有 多 个 来 自 ZIR z, zn. +, MY 
做 合并 点 〈 见 图 5. 1i) 。 当 且 只 当 所 有 的 元 素 z;，z;,，… 完 成 ， 控 制 流程 才 通 过 合 
并 点 。 这 意味 着 节点 k 的 后 续 节 点 只 在 所 有 的 宏 操作 z;，z;,，… 结 束 之 后 才 被 
激活 。 

使 用 HGS 可 以 使 复杂 控制 算法 一 步 一 步 开发 ， 在 每 个 阶段 的 努力 集中 在 特定 
的 抽象 级 别 ”] 。 每 个 HGS (BRR) 通常 很 简单 ， 可 以 独立 测试 。 而 且 ， 当 有 要 
求 时 ， 模 块 容易 更 新 。 

图 5.2 所 示 为 以 HGS 方式 描述 3. 3 节 的 函数 ICCD 的 例子 。 








unsigned int IGCD( unsigned int A, 








unsigned int B) 
{ unsigned int tmp; 
while (B > 0) = 
{ if (B >A) { tmp=A; A=B; B=tmp; } haa HARIB 
else { tmp=B; B= A%B; A=tmp; } 5 
return A; A A 除 以 B 的 余数 
} = 


a) 
















case C S is 
when init => N S <= init; 














if (A = 0) or (B = 0)) then Res. next <= 0; 
else FSM A next <= conv integer(A); A B 
FSM B next <= conv integer(B); N S <= nn state; 15 25 
end if; 25 5 
when run state => N S <= run state; em. 
if (FSM_B>0) and (FSM_B>FSM_A) then FSM_A_next <= FSM_B; 15 L— 3515210 
FSM B next <= FSM A; 10* 15%10= 
elsif (FSM B»0) and (FSM B«-FSM A) then FSM A next «- FSM B; 10965-0 
FSM B next <= FSM A rem FSM B; 
else Res. next <= FSM A; N_S <= init; 
end if, 
when others => N_S <= init; 
end case; 
c) 


图 5.2 a) 3.3 4709 C 函数 IGCD b) 描述 函数 形成 HGS e) VHDL 描述 例子 


将 图 5. 2a 中 的 C 函数 变 为 图 5. 2b 中 的 HGS, HERI 3. 3a 更 容易 理解 。 因 为 图 
5.2b 中 的 HGS 不 具有 层次 结构 ， 所 以 FSM 状态 可 以 赋值 给 HGS， 类 似 普通 图 策略 
使 用 的 方法 [6 ， 规 则 不 同 于 Mealy 和 Moore 模型 。 例 如 ， 状 态 init 和 run, state 用 于 
Mealy FSM 可 以 被 赋值 ， 如 图 5. 2b 所 示 。 它 们 与 开始 节点 (init) 的 后 续 节 点 的 输 
入 、 结 束 节 点 的 输入 (相同 的 状态 init) 和 三 角 节 点 的 输入 (run_state) 相关 。 过 
渡 和 输出 信号 也 可 在 方法 的 帮助 下 明确 !61 。 最 后 ，VHDL 代码 描述 具有 数据 通道 
元 素 的 FSM 状态 过 渡 ， 如 图 5. 2c 所 示 (图 5. 2c 也 是 FSM 功能 的 例子 ，A = 15， 
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B =25) 。 所 有 必须 细节 见 本 章 参考 文献 16, 8]。 用 VHDL 编码 HCS， 见 本 章 参 考 
文献 [5] 。 
IGCD 完整 的 参数 化 VHDL 模块 如 下 : 
entity FSM OneEdge GCD is -- circuit with synchronization by one clock edge 





generic( data_size: integer := 8); 

port ( clk :in std logic; 
rst : in std logic; 
A :in std logic vector(data size-1 downto 0); 
B :in std logic. vector(data size-1 downto 0); 


Result :outstd logic vector(data size-1 downto 0)); 
end FSM OneEdge GCD; 


architecture Behavioral of FSM OneEdge GCD is 
signal FSM A, FSM B, FSM A next, FSM B next 
: integer range 0 to 2**data size-1; 
type state type is (init, run state); 


signal C S,N S : State type; 

signal Res, Res next : integer range 0 to 2**data_size-1; 
begin 
process (clk) -- this process describes functionality of the FSM state register and 
begin -- registers of datapath 


if rising edge(clk) then 
if (rst = '1') then C_S <= init; 
FSM A <=conv_integer(A); 
FSM B «-oonv integer(B); 
Res <= 0; 
else C_S<=N_S; 
FSM A«-FSM A nex; FSM_B <= FSM B next; 
Res <= Res next; 
end if; 
end if; 
end process; 


process (C S, A, B, FSM A, FSM B, Res) - this is a combinational process 
begin 

N_S<=C_S; 

FSM A next <= FSM A; 

FSM B next <= FSM B; 

Res next «- Res; 


case C Sis 
when init => 
if ((A=0) or (B = 0)) then Res next <= 0; N_S <= init; 
else FSM_A_next <= conv_integer(A); 
FSM B next <= conv_integer(B); 
N S «-run state; 
end if; 


when run. state => N_S <= run state; 
if (FSM B»0) and (FSM_B>FSM_A) then FSM A next <= FSM B; 
FSM B next <= FSM A; 
elsif (FSM_B>0) and (FSM B«-FSM A) then FSM A next <= FSM B; 
FSM B next <= FSM A rem FSM B 
else Res next <= FSM A;N S <= init; 
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end if; 
when others => N_S <= init: 
end case; 
end process; 


Result <= conv_std_logic_vector(Res, data size); 
end Behavioral; 
上 述 代码 可 在 更 复杂 的 工程 中 作为 器 件 。 例 如 ， 为 了 以 十 进 制 形式 在 Nexys - 
4 板 的 7 段 显示 器 上 显示 结果 ， 可 以 连接 附录 B 中 的 模块 ， 如 下 : 
entity TestGCD is 


generic( data_size: integer := 8); 
port(  clk :in std logic; ~ ~ dock signal 
rst :in std logic; -- reset signal (active high) 
A :in std_logic_vector(data_size-1 downto 0); 
B :in std_logic_vector(data_size-1 downto 0); 


sel disp : out std_logic_vector(7 downto 0); 
seg : out std_logic_vector(6 downto 0)); 
end TestGCD; 


architecture Behavioral of TestGCD is 


signal BCD2,BCD1,BCD0 : std_logic_vector(3 downto 0); 

signal Result : Std_logic_vector(data_size-1 downto 0); 
begin 
BCD: entity work.BinToBCD8 


port map (clk, rst, open, Result, BCD2, BCD1, BCD0); 


DispCont: entity work.EightDisplayControl 
port map(clk, "0000", "0000", "0000", "0000", "0000", 
BCD2, BCD1, BCDO, sel disp, seg); 


GCD: entity work.FSM OneEdge GCD 
port map(clk, rst, A, B, Result); 


end Behavioral; 
5.2. 层次 有 限 状态 机 


从 本 章 参 考 文献 [5, 7, 9, 10] 知道 ，HGS 可 在 HFSM 中 执行 ， 采 用 栈 存储 
器 ， 人 允许 执行 层次 算法 。HFSM 模型 在 本 章 参 考 文献 [9] 中 提出 ， 在 本 章 参 考 文 
WK [10] 中 进一步 详尽 说 明 。 模 型 在 硬件 中 实现 ， 并 在 大 量 工业 产品 中 测试 成 功 。 
进一步 的 改善 见 本 章 参 考 文献 [5，7，11，12] ， 所 以 新 的 实际 应 用 被 执行 、 测 试 
和 评估 。 在 文献 [13 -24] 中 ,分析 了 HFSM 的 理论 和 实际 问题 并 进一步 扩展 和 
提高 。 本 章 参 考 文献 [25] 中 的 状态 图 规范 应 用 于 HFSM， 也 用 于 面向 对 象 编程 ， 
并 用 作 统 一 建 模 语 言 的 部 分 。 其 他 类 型 的 层次 和 并 行 有 限 状 态 机 也 集中 讨论 过 ， 且 
它们 应 用 到 艇 和 人 系统 在 本 章 参考 文献 【26] 中 涉及 过 。HFSM 人 允许 理论 转换 ， 也 文 
持 物理 执行 ， 因 为 它们 是 可 综合 的 。 

这 里 将 跳 过 正式 数学 定义 ， 非 正式 地 描述 HFSM 模型 。 令 x ，…，xL/y1，…， 
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yy 为 输入 /输出 信和 号。 结构 上 ，HFSM 具有 一 个 或 两 个 栈 存储 器 。 在 具有 两 个 栈 存 
储 器 的 情况 下 ， 其 中 一 个 栈 存 储 器 (FSM_stack) 保持 状态 ， 另 一 个 (M. stack) 
完成 模块 之 间 的 转换 。 任 何 模块 都 可 以 认为 是 FSM 或 者 HFSM。 栈 存储 器 由 电路 
(C) 管理 ， 电 路 C 负责 调用 新 模块 和 激活 模块 中 的 状态 转换 ， 激 活 模块 由 M. stack 
的 输出 指定 。 因 为 每 个 特定 的 模块 都 有 唯一 的 辨识 码 ， 所 以 相同 的 HFSM 状态 可 在 
不 同 模块 中 重复 。 任 何 非 层次 (传统) 转换 只 在 FSM stack 寄存 器 的 顶端 通过 改变 
代码 来 实现 ( 见 图 5.3 和 @ 符 号 )。 任 何 层 次 调用 都 会 激活 压 和 (push) 操作 并 改 
变 两 个 栈 存 储 器 的 状态 ， 这 样 的 话 ，M_stack 将 会 存储 新 (被 调用 ) 模块 的 代码 ， 
FSM stack 将 会 重 置 为 被 调用 模块 的 初始 状态 -( 见 图 5.3 和 国 符 号 ) 。 任 何 层 次 返 
回 具 激活 弹出 (pop) 操作 ， 栈 存储 器 不 做 任何 改变 ( 见 图 5.3 $e F5). 。 因 此 ， 
从 该 状态 转换 为 另 一 个 状态 时 将 执行 调用 的 结束 模块 。 两 个 栈 存储 器 共用 一 个 栈 存 
储 器 指针 。 这 里 探究 具有 数据 通路 的 HFSM， 电 路 C 具有 RTL 结构 ， 如 图 5.3 所 
示 ， 使 高 级 语言 的 操作 直接 或 者 稍 作 改 变 后 映射 ， 因 此 可 在 硬件 中 执行 。 












寄存 器 集 和 其 他 器 
件 用 于 计数 、 位 移 
累加 等 





输出 : 
标记 变量 /状态 


Ta 
ria ys Yy 状态 


图 5.3 HFSM 支持 层次 和 递归 调用 


图 5. 3 中 的 模型 具有 如 下 优势 : 

1) 没有 处 理 核 所 具有 的 限制 ， 比 如 操作 数 的 大 小 约束 、 提 前 定义 的 指令 集 、 
i ee 

) 完全 可 综合 ， 在 本 章 参 考 文献 [5] 中 例证 过 

s dee tte nS 

区 分 两 类 HFSM'5." 1 ， 即 具有 明确 和 不 明确 模块 的 HFSM。 具 有 明确 模块 的 
HFSM ( 见 图 5.3) 具有 两 个 栈 存 储 器 (FSM_stack 和 M. stack) 和 电路 C， 电 路 C 
负责 任何 激活 模 奖 内 的 状态 转换 ， 激活 模块 由 模块 栈 存储 器 选择 〈ML_stack)。 具 有 
不 明确 模块 的 HFSM 只 有 一 个 栈 存储 占 ， 用 于 保持 当前 激活 模块 返回 的 路 径 。 

基于 HFSM 的 设计 电路 可 从 模板 中 完成 后续 会 讲述 。 模 板 中 的 栈 存储 器 是 完 
全 可 重复 使 用 的 。 设 计 方 法 只 要 求 在 描述 电路 C 的 功能 模板 中 明确 状态 转换 。 


5.2.1 具有 了 明确 模块 的 HFSM 的 HDL 模板 
图 5.3 所 示 为 具有 明确 模块 的 HFSM 的 结构 55 M_stack fH FSM. stack 明确 
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指明 当前 执行 模块 和 当前 模块 状态 。M_stack 的 顶端 寄存 器 包含 当前 执行 模块 的 代 

码 。FSM_stack 的 顶端 寄存 器 用 作 当 前 执行 模块 的 寄存 器 ， 即 它 提供 当前 执行 模块 

请 求 的 任何 状态 转换 的 状态 〈 状 态 代码 ) 。 开 始 时 ， 两 个 栈 存储 器 的 顶端 寄存 器 设 
置 为 初始 模块 〈z) 的 初始 状态 a。， 必 须根 据 给 定 算法 首先 激活 。 之 后 ， 可 以 执 
行 如 下 三 类 允许 的 状态 转换 : 

(1) 同一 模块 之 间 的 状态 转换 。 这 种 情况 下 ，HFSM 操作 同 普通 FSM. 

(2) 转换 到 下 一 模块 ,的 第 一 状态 。 这 种 情况 下 ， 操 作 push (z, 的 代码 ) 应 
用 到 M_stack ， 操 作 push (z, 的 第 一 个 状态 ) 应 用 到 FSM_stack。 这 个 转换 称 为 层 
次 调用 。 

(3) 从 当前 执行 模块 2, 到 激活 的 模块 z 的 转换 。 这 种 情况 下 ， 操 作 pop 应 用 
到 M stack (因此 ，M_stack 的 顶端 寄存 器 将 包含 z 的 代码 ) ， 操 作 “pop + 状态 转 
换 ” 应 用 到 FSM_stack。 第 三 类 转换 称 为 层次 返回 。 

具有 明确 模块 的 HFSM 有 如 下 面 的 特征 ， 有 两 个 栈 存储 器 ， 保 存 用 于 模块 的 
log, Q 位 向 量 和 用 于 状态 的 log, R 位 向 量 ， 其 中 Q 是 模块 的 数量 ，R 是 模块 状态 的 
最 大 值 。 不 同 模块 的 状态 可 以 赋予 相同 的 代码 。 

这 里 讨论 两 类 HFSM。 第 

一 个 同 本 章 参考 文献 [5] 中 
描述 的 一 样 。 两 个 时 钟 沿 同步 
完成 上 升 和 下 降 ( 见 图 5.4a) 。 || Sree 
第 二 类 ( 见 图 5.4b) 只 需 一 个 [| Esc IET XUISE 




















时 钟 
上 升 沿 





时 钟 沿 完成 同步 ， 这 样 ， 组 合 时 序 进程 
进程 负责 下 一 HFSM 状态 的 准 时 名 

备 ,寄存 器 的 下 一 内 容 出 现在 vil ici 
数据 通路 中 。HFSM 的 状态 和 HFSM 存 储 器 
寄存 器 在 选择 的 时 钟 沿 改变 rare 

(比如 图 5.4b 中 的 上 升 沿 )。 存 器 状态 的 数据 sink tied 





图 5.4b 中 的 电路 执行 通常 又 组 合 进程 时 序 进程 
小 又 快 ， 而 图 5.4a 中 的 第 一 b) 
个 电路 描述 又 清楚 又 简单 ， 因 
此 ， 可 以 更 容易 检测 到 并 避免 
潜在 错误 。 

具有 明确 模块 的 HFSM 的 VHDL 可 综合 模板 “如 图 5.5 所 示 ， 具 有 两 个 进 
FERR: OH (M. stack) 和 状态 (FSM_stack) 的 重复 使 用 ; OB C 的 结构 
允许 执行 模块 级 转换 和 状态 转换 。 这 里 ，M _stack 和 FSM_stack 共用 stack. pointer 
栈 存储 器 指针 ; 信号 push 增加 stack pointer, pop 减少 stack_pointer。 

以 下 C 语言 代码 (其 中 函数 GCD 有 两 个 参数 ， 在 图 5. 2a 中 描述 过 ) 查找 非 


图 5.4 a) HFSM 在 两 个 时 钟 沿 同步 
b) HFSM 在 一 个 时 钟 沿 同步 
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quM ————— et E a T T tSt 


| process (clock) -- Sequential process for HFSM memory 


| begin -- and for registers (if required) 1 栈 的 建立 基于 : 
+ -- Activating the process on edge of the clock. | 
-- Setting registers to initial states and | 14. 任意 逻辑 器 件 
-- initializing using synchronous reset. i » 
-- Test for stack overflow. i 2. 分 布 式 寄存 器 
-- Change the states of registers if required | 
-- Executing transitions of the following types: | 3. RA SCHERER AM 


-- a) between states within the same module; ' 
-- b) between states that belong to different modules. | 
l 























| end process; ge Sr 
d Mi ! Control = uM cs arg 
ore ‘clock, reset, posi pop j modis uc | reset, pi ush, 5) IG 部 进程 可 以 是 : 
Q 工 时 序 如 图 5.4a 所 示 
v SE 
M stack Circuit C j B |stack| 他 2. 组 合 如 图 5.4b 所 示 
Structure: 3 
current & 
T : Ji state E 
um l.] Se < 
module j i 
EEE T E E SR iaa 7 = oe 
! MS (<sensitivity list>) ~ sensitivity list contains only clock signal for: sequential process (see Fig. 54: ) 。 
-- sensitivity list contains signals that influence the outputs of the combinational pitas (see Fig, 5.4 b) 
i begin ~ examples in section 5.2 are given separately for sequential (see Fig. 5.4a) and combinational (see Fig, 54b) pras of this type 
| ~ Setting default values for variables and signals if required 





| Case M stack(stack pointer) is Ihe first level of case permits the active module to be selected 
| When 20 => 


i case FSM stack(stack pointer) is 一 thenested case permits an active state within the module z0 to be selected 


i when init => — describing operations and transitions between the states and modules 
when z1 => -- describing operations and transitions between the states and modules 

| | ease FSM stack(stack pointer) is 

1 when init => ~ describing operations and transitions between the states and modules 

! when others => 

| end case; 


| end process; 


图 5.5 具有 明确 模块 的 HFSM 模板 


ARMA, B, C, Dn 的 最 大 公 因 数 : 
unsigned int IGCD(unsigned int A, unsigned int B, unsigned int C, unsigned int D) 
{ return IGCD (IGCD(A,B), IGCD(C,D)); ) 


函数 IGCD 有 四 个 参数 A，B，C，D， 可 用 图 5.6 所 示 HGS 描述 。 可 以 发 现 它 
类 似 于 流程 图 。 有 状态 (initAB ,initCD，cl_zl，c2_zl， c3 zl, initl_2, final state) 
和 模块 (z0, 2) 0 TES. 3 节 将 讲述 如 何 关联 HFSM 状态 和 HGS 的 节点 。 图 5. 6a 中 
给 的 注释 可 以 理解 模块 zo 的 功能 。 模 块 z, (找到 两 个 非 负 整数 的 最 大 公 因 数 ) 已 
在 前 面 描 述 过 了 。 这 个 模块 的 VHDL 代码 如 图 5. 6b 所 示 。 图 35.6c 中 的 VHDL 代码 
给 出 了 模块 zo 的 预期 功能 的 一 般 概念 。 

任何 层次 调用 模块 (如 可 以 被 蔡 代 或 者 调整 ， 日 不 影响 上 级 模块 (如 
z0) 。 例 如 ， 本 章 参考 文献 [1，5] 中 的 最 大 公 因 数 是 基于 以 下 递归 C 函数 RGCD 
的 VHDL 代码 : 


unsigned int RGCD (unsigned int A, unsigned int B) 
{ if (B > A) return RGCD (B,A); 

else if (B<=0) return A; 

else return RGCD(B, A%B); ) 


正如 前 面 提 及 的 ，HFSM 模块 支持 递归 模块 调用 ， 尽管 周 期 函数 ( 像 上 述 
RGCD) 北 推 执行 根本 不 高 效 '”1。 后 续 将 讨论 树 算法 ， 递归 或 许 适用 33] 。 

以 下 VHDL 代码 给 出 了 具有 数据 通路 的 HFSM 的 完整 可 综合 规范 ， 用 于 执行 图 
5. 6a 所 示 HCS， 采 用 上 升 和 下 降 时 钟 沿 同步 (ILE 5. 4a)。 








基于 FPGA 的 系统 优化 与 综合 








测试 0 为 模块 准备 数据 (4,8) 


Bor [pmnan] moe 
开始 
Z1 




























{rp Dez nk d 









case M stack(stack pointer) is 












pa, ET 数据 (cf_zf 的 when z0 => = 模块 代码 
hal =| ol 结果 ， c1_z1 case FSM_stack(stack_pointer) is 
的 调用 1 的 结果 ) when initAB => ~ 如 果 至 少 ! 个 操作 数 为 0， 则 结果 为 | 
位 模块 z, =| ( if (A=0) or (B= 0) or (C=0) or (D = 0)) then 
WESCE ini mom ResF <= 0; N. S <= initAB; 
C,D i ICD i IN else FSM_A <= conv_integer(A); 
an Ax (8) 
He d FSM B «- conv. integer(B); 
模块 如 aT P = NS cla [ege 
的 调用 2 = am end if; ELI 


换 示例 





when c1 z1 => N_S <= initCD; 
N_M <= 21; push <='1'; 

when initCD => ResAB <= Res; 
FSM_A <= conv_integer(C); 
FSM_B <= conv. integer(D); N S <= c2 z1; 


when c2_z1 => N S <= initl 2; = hr 
N_M <= z1; push <= '1'; Jes 次 调 
wWheninitl.2-» N.S«-c3 zi; 用 示例 
FSM_A <= conv_integer(ResAB); 
FSM_B <= conv_integer(Res); N_S <= c3 z1; 
when c3 z1 => N_S <= final state; 
N_M «- z1; push <= '1*; 
when final state => 
ResF <= Res; N S <= initAB; 
when others => N_S <= initAB; 
end case; 
= 模块 3 的 代码 在 这 里 插入 
when others => N_M <= z0; 
end case; 











模块 结束 zo 
a) 


when z1 => -模块 a 的 代码 
case FSM_stack(stack_pointer) is 
when initAB => N_S <= initAB; 
if (FSM_B>0) and (FSM_B>FSM_A) then 
FSM_A <= FSM B; 
FSM_B <= FSM_A; 
elsif (FSM_B>0) and (FSM_B<=FSM_A) then 
FSM_A <= FSM_B; 
FSM_B <= FSM_A rem FSM_B; 
else Res <= FSM_A; pop <='1'; 
end if; 
when others => N_S <= initAB; 
end case; 










图 5.6 ICCD 函数 的 描述 
a) 具有 四 个 参数 A，B, C, D b) Wz WY VHDL 代码 e) 状态 转换 和 层次 调用 


entity IGCD is -- the function IGCD with four arguments A, B, C, and D 


generic ( stack size — :integer:- 1; data size : integer := 4); 
port ( clk :in std logic; -- dock signal 
rst :in std logic; -- reset signal (active high) 
A :in std logic vector(data size-1 downto 0); 
B :in std logic vector(data size-1 downto 0); 
C :in std logic vector(data size-1 downto 0); 
D : in std. logic vector(data size-1 downto 0); 
stack overflow :outstd logic; ^ -- indicates HFSM stack overflow 
Result : out std logic vector(data size-1 downto 0)); 
end IGCD; 


architecture Behavioral of IGCD is 
signal FSM A, FSM B : integer range 0 to 2"*data_size-1; -- data size is the size of data 
signal Res, ResF, ResAB : integer range 0 to 2**data size-1; 
type state type is (initAB, initCD, c1 z1, c2 z1, c3 z1init1 2/final state); --states *** 


signal N S : state type; 

type MODULE TYPE is (z0, z1); -- HFSM modules oe 

signal N M : MODULE TYPE; 

type stack is array(0 to stack size) of STATE TYPE; LM 

signal FSM stack : stack; -- FSM. stack for HFSM zx sh 

signal stack pointer : integer range 0 to stack size*; -- +1 to allow test for overflow *** 
signal push : std logic; -- forces to increment the stack pointer. -- *** 
signal pop : std_logic; -- forces to decrement the stack pointer. -- *** 


— — .. . ie 
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type Mstack is array(0 to stack size) of MODULE TYPE; “iij 
signal M_stack : Mstack; -- M_stack for HFSM onl SE 
begin 
process(clk) -- beginning of the M. stack and FSM_stack 
begin -- this is a sequential process 


if rising edge(clk) then stack overflow <= '0'; 
if rst = 1' then stack pointer <= 0; FSM stack(0) <= initAB; 
M stack(0) <= z0; 
else 
if push = '1' then 
if stack pointer = stack size*1 then stack overflow <= '1'; 
else stack pointer «- stack pointer * 1; 
FSM_stack(stack_pointer+1)<= initAB; 
FSM stack(stack pointer) «-N S; 
M stack(stack pointer*1) <= N M; 


end if; 
elsif pop = '1' then stack_pointer <= stack_pointer - 1; 
else FSM_stack(stack_pointer) <=N_S; 
end if, 
end if; 
end if; 


end process; -- description of the M_stack and FSM_stack ends here 


process (clk)  -- description of the left-hand circuit in Fig. 5.4a 
begin -- this is a sequential process 
if falling edge(clk) then push <= '0'; pop <= '0'; N_M <= z0; 
if rst = '1' then FSM A <= 0; FSM_B <= 0; Res <= 0; 


else 
case M_stack(stack_pointer) is 
when z0 => -- the code is the same as in Fig. 5.6c 
case FSM_stack(stack_pointer) is 
when initAB => 
if ((A = 0) or (B = 0) or (C = 0) or (D =0)) then 
ResF <= 0; N_S <= initAB; 
else FSM_A <= conv_integer(A); 
FSM_B <= conv_integer(B); N S <= c1 zt; end if; 
when c1_z1 => N_S <= initCD; N M <=z1; push <= '1'; 
when initCD => ResAB <= Res; FSM_A <= conv_integer(C); 
FSM_B <= conv_integer(D); N S <= c2_z1; 
when c2_z1 => N_S <= initt_2; N M <= z1; push <= '1'; 
when init1_2 => N_S <=c3_z1; FSM A <= conv integer(ResAB); 
FSM_B <= conv_integer(Res); N_S <=c3_z1; 
when c3 z1 => N_S <= final state; N M <= z1; push <= '1'; 
when final state => ResF <= Res; N_S <= initAB; 
when others => N S <= initAB; 
end case; 
when z1 => -- the code is the same as in Fig. 5.6b 
case FSM stack(stack pointer) is 
when initAB => N S <= initAB; 
if (FSM B»0) and (FSM_B>FSM_A) then FSM A <= FSM B; 
FSM B <= FSM A; 
elsif (FSM_B>0) and (FSM B«-FSM A) then FSM A «- FSM B; 
FSM B <= FSM A rem FSM B; 
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else Res <= FSM_A; pop <= '1'; 
end if; 
when others => N S <= initAB; 
end case; 
when others => N M <= z0; 
end case; 
end if; 
end if; 
end process; 
Result <= conv std logic vector(ResF, data size); 
end Behavioral; 
以 下 VHDL 代码 给 出 具有 数据 通路 的 HFSM 的 完整 可 综合 规范 ， 用 于 执行 图 
5. 6a 所 示 HGS， 采 用 上 升 沿 时 钟 同步 ( 见 图 5.4b)。 


entity Hierarchical_IGCD is 
-- this entity is described exactly the same as the entity IGCD above 


end Hierarchical IGCD; 


architecture Behavioral of Hierarchical IGCD is --some lines have to be copied from the IGCD 
--the same declarations as in the IGCD above are not shown (they are marked with *** in the IGCD) 
signal FSM A, FSM B, FSM A next, FSM B next : 
integer range 0 to 2**data_size-1; 


signal Res, Res next, ResAB, ResAB next, ResF, ResF next: 
integer range 0 to 2**data_size-1; 














signal N S, C S : state type; 
signal N M, C M : MODULE TYPE; 
begin 
process(clk) ^ -- beginning of the M stack and FSM stack 
begin -- this is a sequential process 
if rising edge(clk) then -- stack memory is described differently compared to the previous example 
if rst = '1' then 
if pop /= "1' then stack pointer <= 0; -- to avoid warnings because of line +++ below 
end if; 


C_M <= z0; C_S <= initAB; M_stack(0) <= z0; FSM_stack(0) <= initAB; 
else FSM_A <= FSM_A_next; FSM_B <=FSM_B_next; 

Res <= Res_next; ResAB <= ResAB_next; 

ResF <= ResF_next; CM «NMCS«NS 

FSM stack(stack pointer) <= N S; M stack(stack pointer) <= C. M; 

if push = '1' then 


if stack pointer = stack size*1 then stack overflow <= '1'; 
else stack pointer «- stack pointer * 1; stack overflow <= '0'; 
end if; 


elsif pop = '1' then stack pointer <= stack pointer - 1; -- +++ (see comment above) 
C S <= FSM stack(stack pointer-1); 
C M«-M stack(stack pointer-1); 
end if; 
end if, 
end if; 
end process; -- description of the M stack and FSM stack ends here 
process (A, B, C, D, C M, C. S, FSM A, FSM B, Res, ResAB, ResF) 
begin -- this combinational process describes the left-hand circuit in Fig. 5.4b 
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N_S <=C_S; 
FSM A next <= FSM_A; FSM B next <= FSM B; Res next. <= Res; 
N M <=C_M; push <= '0'; pop <= '0'; 
ResAB next <= ResAB; ResF. next <= ResF; 
caseC Mis 
when z0 => 
case C_Sis 
when initAB => 
if ((A = 0) or (B = 0) or (C = 0) or (D = 0)) then 
ResF. next <= 0; N. S <= initAB; 
else FSM A next <= conv integer(A); 
FSM B next <= conv. integer(B); N S <= c1_z1; 
end if; 
when c1 z1 => N S <= initCD; N_M <= z1; push <= '1'; 
when initCD => ResAB next <= Res; FSM A next <= conv. integer(C); 
FSM B next <= conv. integer(D); N S <= c2 z1; 
when c2 z1 => N S <= init] 2; N M <= z1; push <= '1'; 
when init1_2 => N S <= init 2; FSM A next <= conv. integer(ResAB); 
FSM B next <= conv. integer(Res); N. S <= c3 z1; 
when c3 z1 => N_S <= final state; N M <= z1; push <= '1'; 
when final state => N S <= initAB; ResF next <= Res; 
when others => N S <= initAB; 
end case; 


when z1 => 
case C S is 
when initAB => N_S <= initAB; 
if (FSM B»0) and (FSM_B>FSM_A) then FSM A next <= FSM B; 
FSM B next <= FSM A; 
elsif (FSM_B>0) and (F5M B«-FSM A) then FSM A next <= FSM B; 
FSM B next <= FSM A rem FSM B; 
else N S «- initAB; Res next <= FSM A; pop <= 15 
end if; 
when others => N S <= initAB; 
end case; 
when others => N M <= z0; 
end case; 
end process; 


Result <= conv std logic vector(ResF, data size); 
end Behavioral; 
上 述 工程 的 实体 IGCD 和 Hierarchical IGCD 在 Nexys -4 和 Atlys 原型 机 板 中 测 
斌 过。 使 用 Nexys -4 板 时 只 使 用 了 开关 、 按 钮 和 LED。 因 为 有 16 个 可 用 开关 ， 采 
用 4 位 操作 数 A, B, C, D。 曾 使 用 以 下 VHDL 代码 : 
entity Top_GCD_4items is -- this project has been tested in the Nexys-4 board 
generic (stack size : integer := 1; data size : integer := 4 ); 
port ( A,B,C,D :in std logic vector (data_size-1 downto 0); 
Result :out std logic vector (data size-1 downto 0); 
stack overflow : out std logic; 


clk, rst :in std logic); 
end Top GCD 4items; 


-- |GCD: synchronized by two dock edges; Hierarchical_IGCD: synchronized by one clock edge 
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architecture Behavioral of Top_GCD_4items is 
begin -- either the first or the second entity has to be uncommented below 


HIGCD: entity work.Hierarchical IGCD  -- the number of the occupied slices (N,) is 29 
generic map (stack size, data size) -- the maximum attainable clock frequency (F 
port map (clk, rst, A, B, C, D, stack overflow, Result); — -- is 365.5 MHz 


--HIGCD: entity work.IGCD -- N, = 29, E, = 241.5 MHz 
= generic map (stack_size, data_size) 
port map (clk, rst, A, B, C, D, stack_overflow, Result); 


we) 


end Behavioral: 
注意 上 述 两 个 VHDL 代码 的 实体 IGCD 和 Hierarchical_IGCD 可 对 任何 数据 大 小 
(data size) 参数 化 。 在 Digilent IOExpansion 器 件 〈 见 1.7 节 ) 的 帮助 下 ， 以 下 
VHDL 代码 用 于 在 和 主机 通信 的 Atlys 板 上 测试 这 些 实 体 。 数 据 大 小 设 为 8， 且 8 位 
fi A, B, C, D 来 自从 主机 接收 的 32 位 值 (data_from_PC ) 。 结 果 显 示 在 主机 的 虚 
{HO (signal data to PC) 。 


entity Iterative GCD is 
generic (stack size : integer := 1; data size : integer := 8); 


port ( clk :in std. logic; 
EppAstb : in std logic; 
EppDstb : in std logic; 
EppWr :in std logic; 
EppDB : inout std logic vector(7 downto 0); 
EppWait : out std logic); 


end Iterative GCD; 


architecture Behavioral of Iterative GCD is -- see interaction with PC in Sects. 1.7 and 2.6 


signal MyLed : std_logic_vector(7 downto 0); 
signal MyLBar : std_logic_vector(23 downto 0); 
signal MySw : Std_logic_vector(15 downto 0); 
signal MyBtn : Std logic vector(15 downto 0); 
signal data to PC : std_logic_vector(31 downto 0); 
signal data from PC  : std_logic_vector(31 downto 0); 
signal A,B,C,D : std_logic_vector(data_size-1 downto 0); 
signal rst, stack_overflow : Std logic; -- reset and HFSM stack overflow signals 
signal Result :std logic vector(data size-1 downto 0); 
begin --IGCD: synchronization by two dock edges; Hierarchical_IGCD: synchronization by one clock edge 
MyLed(0) <= stack overflow; -- HFSM stack overflow 
MyLed(7 downto 1) <= MyBtn(7downto 1); -- for tests only 
MyLBar <= MySw & MyBtn(15 downto 8); -- for tests only 
rst <= MyBtn(0); -- HFSM reset 
A «- data from PC(31 downto 24); B <= data from PC(23 downto 16); 
C «- data from PC(15 downto 8); D <= data from PC(7 downto 0); 


-- either the first or the second entity has to be uncommented below 
HIGCD: entity work.Hierarchical IGCD -- N, = 122, Fux = 61.5 MHz 
generic map (stack size, data size) -- note, that N, and Fna above are 
port map (clk, rst, A, B, C, D, stack overflow, Result); -- for the entire project 


--HIGCD: entity work.JIGCD -- N, = 136, Fi = 61.5 MHz 
-- generic map (stack size, data size) -- note, that N, and Fw above are 
-- port map (clk, rst, A, B, C, D, stack overflow, Result); -- for the entire project 
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data to PC <= (31 downto 8 => '0') & Result; 


IO interface: entity work.IOExpansion 
port map(EppAstb, EppDstb, EppWr, EppDB, Epp Wait, MyLed, 
MyLBar, MySw, MyBtn, data from PC, data to PC); 


end Behavioral; 


正如 从 前 面 的 例子 中 所 看 到 的 ，HFSM 从 前 期 测试 过 的 模块 中 建立 执行 算法 。 


因此 可 以 获 利 如 下 : 


— 


模块 ; 


N 





任何 模块 可 从 复杂 的 算法 中 独立 编译 和 检查 ， 即 该 算法 可 潜在 使 用 该 


任何 模块 可 重复 使 用 ， 且 可 包含 在 不 同 算法 中 ， 重 复 使 用 可 以 认为 是 对 于 


任何 新 调用 ， 所 有 变量 和 信和 号 可 能 潜在 改变 ， 在 前 面 的 调用 期 间 必 须 设 为 初始 值 ; 





3) 任何 模块 都 可 优化 ， 通 常 不 改变 算法 的 剩余 部 分 ; 
4) 可 用 和 竞争 模块 (如 IGCD 和 RGCD) 容易 测试 和 比较 ; 
5) 容易 增加 映射 到 硬件 算法 的 复杂 性 。 


5.2.2 具有 不 明确 模块 的 HFSM 的 HDL 模板 


图 5.7 所 示 为 具有 不 明确 模块 的 HFSM 的 结构 '1。HFSM 行为 类 似 于 普通 


FSM， 只 用 了 一 个 状态 栈 存储 器 ， FAT EAA BR BOE EHHR. 


| process (clock, reset) - 一 Ssauentisl p process for HFSM oy 
begin 
-- Activating the process on edge of the clock. 


-- Test for stack overflow. 
-- Executing transitions just for hierarchical returns, 


-- i.e. for returns from called modules to calling modules 
end process; 


























-- Setting registers to the initial states using synchronous reset. 


SS waa ae AO E" fe ta eR 
状态 影响 层 ! — 
次 返回 转换 | 栈 的 建立 基于 : 
^ i nates 
Structure: alah o dn B= === a Control: clock, | 1. 任意 逻辑 器 件 
输入 | te | 站 一 | reset, push, pop, 2. 分 布 式 寄 存 器 
i 1 
es dug iu | 3. 嵌入 式 模 抉 RAM 
— 电路 C | ae FSM stack| Hu 
n i 当前 
i | ' | LJ | 解码 FSM_stack 保 持 
i 输出 < Return_S 模块 返回 状态 
1 euer («sensitivity l list») | — see the template for HFSM with explicit modules — wi T4 007 
| begin 


| -- much like the previous template this part is dependent on chosen type of this process (i.e. combinational or sequential) 


| case «Register» is 
when init => N S -- describing operations and transitions 


| — repeat for all states 


| 
1 --forany hierarchical return generate pop signal 
| when others => -.. 

| end case; 

; end if; 

i end process; 


图 5.7 具有 不 明确 模块 的 HFSM 模板 


-- for any hierarchical call save return state on the stack and generate push signal. Example: Return_S<= init; N_S <= init2; push <= '1'; 


195 





e 基于 FPGA 的 系统 优化 与 综合 i 


图 5.7 中 有 三 个 基本 模块 ， 即 寄存 器 、FSM_stack 和 电路 C， 用 于 计算 状态 转 
换 的 下 一 状态 , 产生 要 求 的 输出 。 现 在 ， 不同 模块 的 状态 必须 分 配 不 同 的 代 
fa 29) 。 当 调用 模块 结束 时 ，FSM_stack 知道 哪个 状态 是 转换 的 目标 。 所 有 状态 转 
换 执行 与 寄存 器 相关 ， 很 像 在 传统 FSM 中 完成 的 一 样 。 这 里 ，Return_S 是 返回 状 
态 的 代码 。 

假定 新 模块 mw 在 状态 au 必须 调用 。 这 种 情况 下 ， 以 下 操作 同时 执行 : Dan 
的 下 一 状态 a, 存在 FSM_stack H; @)stack_pointer 指针 加 1; @) 在 寄存 器 中 am 转换 
到 a, (FRA z,) 。 

当 调用 模块 z, 结束 时 ， 栈 存储 器 指针 减 1 stack pointer 指向 栈 存储 器 ， 选 中 
状态 a, 为 下 一 状态 转换 。 考 虑 返回 的 两 个 模式 5] 。 第 一 个 模式 ， 从 状态 an 转换 
不 取决 于 调用 模块 (,) 的 执行 ， 因此 从 调用 模块 (如 z,) 中 返回 之 后 ， 可 以 明 
确 存在 栈 存 储 器 中 用 于 转换 的 状态 (如 a,)。 第 二 种 情况 (更 加 复杂 )， 从 状态 an 
转换 可 在 调用 模块 中 改变 ， 且 必须 采用 基于 特殊 返回 标记 的 方法 '*]。 所 有 必要 细 
节 见 本 章 参 考 文献 [5,28]. 

注意 ， 相 同 模块 调用 可 能 发 生 在 不 同 的 状态 ， 因 此 ， 返 回 也 可 能 从 相同 调用 模 
块 返回 到 不 同 状态 。 这 也 是 为 什么 返回 状态 必须 从 正在 调用 的 模块 中 选择 (但 不 
是 在 已 经 调用 的 模块 中 ) 。 栈 存储 器 用 于 知道 在 调用 模块 结束 时 ， 哪 个 状态 是 转换 
的 目标 。 对 比 有 明确 模块 的 HFSM， 状 态 数 增加 。 但 是 ， 栈 存储 器 的 数量 和 栈 存储 
器 的 大 小 减少 了 15 。 这 个 模型 的 另 一 个 特征 是 可 以 直接 应 用 到 所 有 已 知 的 优化 技 
术 中 ， 即 在 传统 PSM 中 提出 的 优化 技术 。 具 有 非 明 确 模块 的 HFSM 完整 可 综合 世 
VHDL 代码 的 例子 见 文献 [5 ]。 








5.3 HFSM 的 综合 


HFSM 的 综合 结构 如 图 5.5 和 图 5.7 所 示 ， 包 括 以 下 步骤 : 

1) 标记 给 定 的 将 会 作为 HFSM 状态 的 HGS, 例如， 图 5. 6a 中 的 标签 initAB， 
initCD, cl_z2, c2. zl, c3 zl, initl_2, final. state 是 HFSM 状态 ; 

2) 定制 提出 的 HDL 模板 〈 图 5.5 和 图 5.7 中 的 VHDL 模板 ); 

3) 定制 VHDL 模板 的 HFSM 综合 电路 ,使 用 可 用 的 商业 CAD 工具 ， 比 如 Xil- 
inx 的 ISE 或 者 Altera 的 Quartus。 

是 出 了 多 种 HGS 标记 类 型 ， 这 些 类 型 依赖 选择 的 HFSM 模型 ( Mealy，Moore 
或 者 组 合 Mealy 和 Moore， 具 有 明确 或 者 不 明确 模块 )。 图 5. 6a 中 的 例子 是 基于 
Moore 模型 的 具有 明确 模块 的 HFSM。 在 后 续 章 节 中 将 讲述 HFSM 的 不 同类 型 的 


综合 。 


5.3.1 具有 了 明确 模块 的 HFSM 的 综合 


综合 可 用 于 Moore, Mealy 和 混合 (Moore 和 Mealy ) 模型 tS 。 对 于 Moore 模 
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型 ， 它 包括 以 下 步骤 ， 非 常 类 似 于 传统 FSM], 
1) 标签 ay 赋 给 所 有 HGS 的 开始 节点 ; 
2) 标签 a m, e, ay WAEA HGS 未 标记 的 矩形 节点 (包括 结束 节 





) 标签 可 在 不 同 HGS 中 重复 ,但 不 能 在 相同 的 HGS 中 重复 〈 除 了 主 HGS w 

中 的 标签 ao ， 也 可 以 赋 给 结束 节点 ) ; 

4) 所 有 和 撼 形 节 点 必须 标记 。 

考虑 的 标记 类 型 允许 HGS 从 主 模 块 m 的 开始 节点 执行 到 主 模块 a 的 结 P. 
点 。 如 果 zo 循环 执行 ， 则 zo 的 结束 节点 必须 赋予 和 zo 的 开始 节点 相同 的 标签 
标签 ae 。 结 束 节 点 的 可 用 转换 可 以 明确 执行 i NAI. 
现在 标签 aa ，…，aw_1 考 虑 为 HFSM 的 状态 。 状 态 转 换 使 用 与 本 章 参 考 文献 [6， 
8] 相同 的 规则 。 每 个 状态 转换 用 于 图 5. 5 提出 的 模板 。 所 有 其 他 细节 以 简单 的 实 
际 例子 表现 ， 如 图 5. 8 所 示 。 


二 竖 行 交换 ， 否 见 
a J Hec EIT i 


dota_sorted=0( 即 数据 已 经 被 排序 ) 
人 PEARS | 一 a 
i| ees BLE | | 
| | 是 a) E] 


| | |z,and 


\ 写 入 未 排序 | | 
\ 区 到 数据 寄存 器 R j count <= count+1 
` 显示 要 求 b) 



















E 的 迭代 次 数 \ 
\ a) s 





\ ~ f V c) 
{it Sfeounefidisp_count — | Xà 信号 count 计 数 迁 代 次 数 ] 
process (clk) | | when zl => i 
begin 是 整数 ， 范围 0 到 N/2 | case FSM_stack(stack_pointer) is ^ 
if falling edge(clk) then | when a0 => count <=0; ready <= ' 


o;i 
if data sorted = 0 then N S <= a2; \ sorted <= out2_in3; 
else N_S <= ai; \ 
end if; b 
when a1 => input_items <= out2_in3; count <= count+1; 
A ifdata_sorted=Othen N_S <= a2; 


push<= '0'; pop<='0'; N_M<=z0; ready«-'1'; 
case M_stack(stack_pointer) is 
when z0 => 
case FSM_stack(stack_pointer) is i 
when a0 => disp_count <= 0; 
if sort enable = '1' then N_S <= a1; else N_S <= a0; end if; i 
i 


iteration: 


数据 被 排序 





| else an ==> N_S <=al; 
when al => N_S<= a2; count<=0; N_M «« z1; push <='1'; i end if; 
for i in N-1 downto 0 loop — write unsorted data to the R i when a2 => pop <='1'; sorted <= out2 in3; 
input, items(i) <= input_data((i+1)*M-1 downto i*M); i when others => N_S <= a0; 
end loop; i end case; 
when a2 => disp count <= count; i when others => N M <= z0; 
if sort enable = '1' then N_S <= a1; else N S <= a0; end if; i end case; -- the nodes Begin and End have to be marked by different 
when others => N_S <= a0; | endif;  - labels in any module called from another module 














end case; -- the label a; was used here for the nodes Begin and End j end process; 





= 
图 5.8 a) HGS 模块 zob) HGS Hash 2, 
迭代 排序 d) 模块 xz Al z, 的 部 分 VHDL 代码 


设计 支持 图 3. 14 所 示 迁 代 排 序 的 所 有 功能 的 HFSM。HFSM 分 析 图 3. 14 中 的 
使 能 enable 信号 ， 人 允许 排序 在 少 于 N/2 时 钟 周期 内 完成 (更 多 的 细节 见 3.5 市 )。 
现在 ,图 5. 8c 所 示 右 边 代码 行 的 每 个 比较 器 有 以 下 VHDL 代码 : 
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entity ComparatorOdd is 


generic (M : integer := 4 ); 
port( Op1 :in std logic vector(M-1 downto 0); 
Op2 :in std_logic_vector(M-1 downto 0); 
MaxValue — :outstd logic vector(M-1 downto 0); 
MinValue : out std logic vector(M-1 downto 0); 
test sorted :outstd logic) ~ test sorted =0 if data are not swapped 
end ComparatorOdd; 


architecture Behavioral of ComparatorOdd is 

begin 

process(Op1,0p2) 

begin 
if Op1 >= Op2 then MaxValue <= Op1; MinValue <= Op2; test, sorted <= '0': 
else MaxValue <= Op2; MinValue <= Op1; test sorted <= '1'; 
end if; 

end process; 


end Behavioral; 

如 果 一 个 新 的 数据 集 从 资源 中 可 用 ， 则 第 一 个 HFSM 模块 z 核实 。 例 如 ， 后 
者 可 以 是 附录 B ( 见 图 5.9a)、 主 机 PC ( 见 4.3 和 4.4 节 ) 或 主 处 理 器 ( 见 4.5 
T) 的 随机 数 发 生 器 。 一 旦 新 数据 可 用 ， 这 个 数据 便 被 排序 器 的 寄存 器 R 占用 ， 
并 调用 模块 5 〈 见 图 5. 8b) 。 后 者 通过 控制 排序 器 排序 数据 ( 见 图 5. 8c), 2, 的 主 
函数 执行 排序 器 中 的 迭代 ， 直 到 比较 器 的 第 二 行 没有 数据 交换 ， 即 数据 已 经 排序 
好 ， 可 以 复制 到 排序 器 的 输出 〈 见 图 5. 8c) 。 因 此 ， 和 迭代 次 数 少 于 N/2 (更 多 细节 
见 3.5 节 ) ， 可 以 提速 排序 。 语 句 count <=0; 可 以 关联 z 的 开始 节点 ,或 者 模块 
zo 中 正在 调用 的 节点 ai。 

图 5. 8a 和 b 中 的 HGS 用 标签 a。 a,, a, 标记 ， 考 虑 为 HFSM 状态 。 状 态 的 所 
有 状态 转换 和 操作 如 图 5. 8d 所 示 。 为 了 简单 这 里 使 用 两 个 时 钟 沿 同步 ( 见 图 
5.4a) 。HFSM 中 的 栈 存 储 器 与 实体 IGCD 相同 ( 见 5.2.1 节 )。 电 路 的 功能 性 可 以 
在 4.1 节 的 复杂 例子 中 测试 ， 其 中 一 个 如 图 5.9 所 示 。 

区 别 于 图 4.7， 这 里 使 用 的 是 图 5. 8c 的 迭代 排序 器 ，N 个 数据 ， 由 HFSM 控制 ,其 
中 的 一 部 分 见 图 5.9 ( 见 重复 声明 D 和 重复 使 用 进程 P1)， 其 他 部 分 见 图 5. 8d (进程 
P2) 。 和 迭代 排序 器 〈 见 图 5.9 中 的 模块 1C) 的 VHDL 代码 可 以 完全 从 图 3. 14 中 重复 使 
用 。 唯 一 的 不 同 是 OddComp 器 件 中 用 ComparatorOdd 替代 Comparator， 在 以 下 向 量 data_ 
sorted 中 ， 信 和 号 test_sorted 的 类 型 为 std. logic , : 

signal data sorted: sid logic vector(N/2-2 downto 0); -- the bottom line in the block DIC 

因此 ， 如 果 data sorted =0， 则 可 以 得 出 排序 完成 的 结论 〈 见 图 5. 8d 中 模块 2 
的 状态 ao 和 al )。 也 提供 了 信号 声明 迭代 排序 器 ( Declaration for the Iterative Sorter, 
DIC), ， 如 图 5.9 所 示 。 图 5.9 中 的 整个 电路 占用 了 117 片 器 件 和 1 ee A RR 
RAM (HÆ Artix -7 FPGA 的 Nexys -4 板 ) ， 且 已 经 在 硬件 中 测试 过 。 最 大 可 达到 
的 时 钟 频率 是 299MHz。 注 意 ， 如 果 采 用 一 个 时 钟 沿 同步 的 话 ， 则 频率 会 增加 。 


198 
— — NENNEN 


p 第 5 章 ， 基 于 层次 和 并 行 技术 规范 A 











DispCont 以 16 系 统 显 示 























— FIFO 的 32 位 向 量 
g E et | ZI rr 
生成 器 ware eT AE cil. 
Random 2 senha we sorted_data i 
v ”如 "E F eine aka ah n i 
woo Mead so pv ] Mo ——— 
Firs 93 items, 4 bits each 迭代 排序 显示 的 数据 为 图 4.6 的 结 
type set_of_items is array (N-1 downto 0) of C pic) 


std_logic_vector (M-1 downto 0); 
signal input_items :set of items; 
signal sorted :set of items; 
signaloutl in2,out2 in3 :set of items; 
signal data sorted: std logic vector(N/2-2 downto 0); 

else n 


迭代 排序 的 VHDL 代码 ( 见 
shan E5557 eee if push = '1' then 


if stack pointer = stack_size+1 then overflow <= '1'; \ 
type state_type is (a0,a1,a2); else stack_pointer <= stack_pointer + 1; 
cs FSM stack(stack pointer*1) <= a0; 


process(clk) 
begin A 


if rising_edge(clk) then lt 不 局 HFSM g 
overflow <= '0'; > TRA v 
if rst ='1' then stack pointer <= 0; Ea 
E 





FSM_stack(0) <= a0; M  stack(0) <= z0; 




















signal N_S, :state type; 4 

type MODULE TYPE is (20,71); FSM stack(stack pointer) ^ «-N S; 
signal N. M, C M : MODULE. TYPE; HFSM 中 重复 M_stack(stack_pointer+1) <=N_M; 
type stack is array(0 to stack size) of state type; 使 用 的 声明 end if; 

signal FSM_stack : stack; elsif pop = '1' then stack pointer«-stack pointer - 1; 
signal stack pointer: integer range 0 to stack size*1; else FSM stack(stack pointer) <= N_S; 

signal push,pop :std logic; end if; 

type Mstack is array(0 to stack v size) of MODULE TYPE; end if; 

signal M stack : Mstack; end if; 

signal count : integer range 0 to N/2; end process; 





图 5.9 使 用 HFSM 和 图 5.8 的 排序 ， 比 4.1 节 更 复杂 的 例子 〈 也 可 见 图 4.7) 


Mealy 机 综合 具有 以 下 步骤 ， 与 传统 FSM 非常 相似 [6581 : 
eh 点 的 后 续 节 点 的 输入 ; 
) 标签 a 2j, ，…，aw_1 赋 给 矩形 节点 的 后 续 节 点 未 标记 的 输入 和 每 个 HGS 

Sd ir 

3) 标签 可 在 不 同 的 HGS 中 重复 ,但 是 不 能 在 相同 的 HGS 中 重复 (RE HGS 
zo 中 的 标签 ae ， 也 可 以 赋 给 结束 节点 的 输入 ) ; 

4) 所 有 输入 只 需 标记 一 次 。 

考虑 的 标签 类 型 允许 HGS 从 主 模块 zo 的 开始 节点 执行 到 主 模块 m 的 结束 节 
点 。 如 果 zs 必须 周期 执行 ， 则 相同 的 标签 a 可 以 在 开始 节点 之 后 使 用 ， 即 在 zo 的 
结束 节点 的 输入 使 用 ， 很 像 Moore HFSM。 现 在 ， 标签 ay, ，…，am -1 考虑 为 HFSM 状 
态 。 状 态 转换 采用 与 本 章 参 考 文献 [6, 8] 中 的 相同 规则 。 每 个 状态 转换 用 图 5. 5 提 
出 的 模板 。 图 5. 10 是 用 于 Moore 机 的 相同 HCS 标记 的 例子 ， 如 图 5. 8a 和 b 所 示 。 

以 下 VHDL 代码 给 出 电路 的 完整 规范 ， 如 图 5.9 所 示 ， 使 用 Mealy HFSM 而 不 
是 Moore HFSM。 具 有 相同 代码 的 模块 如 图 5.9 所 示 ， 会 在 注释 中 指明 ，VHDL 语 
句 也 不 明确 表示 。 排 序 器 在 如 下 器 件 中 描述 ; 


sorter : entity work.EvenOddTransitionlterative -- this specification has to be used below 
port map (clk=>clk, ready=>ready, input_data=>to_rg, sorted_data=>sorted_data, 
overflow =>overflow, disp_count=>disp_count_int, rst=>rst, 
sort_enable=>sort_en); 
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E 
3 count <= 0 





未 排序 数据 
写 入 寄存 器 R 
显示 迭代 次 数 count <= count+1 
a) b) 
图 5. 10 a) 标记 图 5.8 的 模块 zzb) 模块 z 为 Mealy HFSM 


其 中 使 用 了 以 下 信号 : 

1) clk，rst 一 时 钟 和 复位 信号 ; 

2) ready 一 指示 排序 器 已 经 准备 好 排序 新 的 数据 集 ; 
3) input_data，sorted_data 一 未 排序 和 已 排序 数据 ; 
4) overflow—HFSM f£ 11; 

5) disp_count 一 在 迭代 排序 器 中 的 迭代 次 数 ; 

6) sort_enable 一 使 新 的 数据 集 在 迭代 排序 器 中 排序 。 


顶层 模块 有 以 下 VHDL 代码 : 

entity TestFIFO withMealyHFSM Component is 

generic (data in size — : integer := 8; -- the width of the input for FIFO 
data out size : integer := 32; -the width of the output for FIFO 
N : integer := 8);  -- we consider here eight 4-bit items to sort 

port ( clk : in std_logic; -- system clock 100 MHz 

led_full :outstd logic;  - LED 15 of the Nexys-4 was used 
led_empty :outstd logic;  -- LED 14 of the Nexys-4 was used 
led div clk :outstd logic; ^ -- LED 4 of the Nexys-4 was used 
seg : out std_logic_vector(6 downto 0); -- display segments 
sel_disp :outstd logic vector(7 downto 0); -- display selections 
disp data : in std logic; -- switch 0 of the Nexys-4 was used 
disp_sorted_data: in std_logic; -- switch | of the Nexys-4 was used 
overflow : out std logic; -- LED 13 of the Nexys-4 was used 
rst : in std logic; -- BINL of the Nexys-4 was used 
disp count :outstd logic vector(2 downto 0)); -- LEDs 2,1,0 of the Nexys-4 


end TestFIFO withMealyHFSM Component; 
architecture Behavioral of TestFIFO MealyHFSM Component is 


signal divided clk :Std logic; -- see also section 4.1 

signal random 8bit — :std logic vector(data in size-1 downto 0); 
signal wr en : std logic; 

signal rd en : std logic; 

signal to rg :Std logic vector(data out size-1 downto 0); 


signal sorted data :Std logic vector(data out size-1 downto 0); 
signal data to display : std logic vector(data out size-1 downto 0); 
signal wr ack : std logic; 
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signal rd_valid : std_logic; 
signal full : std logic; 
signal ready : std logic; 
signal disp count int : integer range 0 to N/2; 
signal sort en :std logic; 
signal to HFSM to count: std logic; 
begin 


disp count <= conv std logic vector(disp count int, 3); 
led div clk <= divided clk; 
led full «- full; 


process(full, rd valid, disp data) 
begin 
if (full /= '1') then wr en«z'1* 
else wr en <= '0'; 
end if; 
if (disp data = '1') then rd en <= '1'; 
else rd en <= '0'; 
end if; 
end process; 
process(clk) 
begin 
if rising edge(clk) then 
if (rd en = '1') and (ready = '1')) then — sort en <= '1'; 
else sort en <= '0* 
end if; 
end if; 
end process; 
data to display <= to rg when disp sorted data = '0' else 
sorted data when ready = '1' 
else (others => '0'); 
FIFO : entity work.FIFO_mem  -- see section 4.1 
port map (wr clk-»clk, rd_clk=>divided_clk, din=>random_8bit, wr_en=>wr_en, 
rd_en=>rd_en, dout=>to_rg, full=>full, empty=>led_empty, 
rd_data_count=>open, wr_data_count=>open); 


Random: entity work.RanGen ~ see VHDL code in Appendix B 
generic map(width => data_in_size) 
port map (clk, random_8bit); 
DispCont: entity work.EightDisplayControl -- see VHDL code in Appendix B 
port map(clk, data to display(31 downto 28), data to display(27 downto 24), 
data to display(23 downto 20), data to display(19 downto 16), 
data to display(15 downto 12), data to display(11 downto 8), 
data to display(7 downto 4), data to display(3 downto 0), sel disp, seg); 
div: entity work.clock divider ~ see VHDL code in Appendix B 
port map(clk, '0', divided clk); 


sorter: entity work.EvenOddTransitionlterative -- see the specification above 


end Behavioral; 


排序 器 VHDL 代码 如 下 : 
entity EvenOddTransitionlterative is 
generic (M : integer := 4; -- M is the size of any data item 
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stack_size ‘integer := 1; -- there are two registers in the HFSM stack 0 and | 
N : integer := 8 ); -- N is the number of data items 
port (clk : in std logic; 

ready : out std logic; 

input data :in std logic vector(N*M-1 downto 0); 

sorted data : out std logic vector(N*M-1 downto 0); 

overflow : out std logic; 

disp count : out integer range 0 to N/2; 

rst :in std logic; 

sort enable : in std logic); 


end EvenOddTransitionlterative; 


architecture Behavioral of EvenOddTransitionlterative is 

-- Declarations needed for the HFSM: insert here all lines from the block D in Fig. 5.9 

~ (the state a2 is not needed for the Mealy HFSM and is removed from the s/afe /ype) 

-- Declarations needed for the iterative sorter: insert here all lines from the block DIC in Fig. 5.9 


begin 


process(sorted) -- this combinational process converts a set of N data items to a single vector 
begin 
fori in N-1 downto 0 loop 
sorted_data((i+1)*M-1 downto i*M) <= sorted(i); 
end loop; 
end process; 


generate even comparators: -- even-odd transition iterative circuit is given below in its entirety 
fori in N/2-1 downto 0 generate -- see also the block IC in Fig. 5.9 and Fig. 3.14 
EvenComp: entity work.Comparator -- this is exactly the same comparator as in Fig. 3.14 
generic map (M => M) 
port map(input_items(i*2), input_items(i*2+1), outt_in2(i*2), out1_in2(i*2+1)); 
end generate generate_even_comparators; 


generate_odd_comparators: -- the code below is slightly different compared to Fig. 3.14 
for i in N/2-2 downto 0 generate 
OddComp: entity work.ComparatorOdd -- see the code at the beginning of section 5.3.1 
generic map (M => M) 
port map(out1 in2(2*i*1), out1_in2(2*i+2), out2_in3(i*2+1), 
out2 in3(i*2*2), data sorted(i)); 
end generate generate odd comparators; 


out2 in3(0) <= out! in2(0); ^ - these two lines are exactly the same as in Fig. 3.14 
out2 in3(N-1) <= outt_in2(N-1); 


-- The process for HFSM stacks: insert here all lines from the block PI in Fig. 5.9 


process (clk) -- Description of transitions and operations in the Mealy HFSM (see Fig. 5.10) 
begin 
if falling_edge(clk) then 
push<='0"; pop<='0'; N_M<=z0; ready<='1": 
case M_stack(stack_pointer) is 
when z0 => 


case FSM stack(stack pointer) is 
when a0 => disp count <= 0; 
if sort enable = '1' then N_S <= a1; count <= 0; 
for iin N-1 downto 0 loop.-- copying unsorted data items to the register R 
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input_items(i) <= input_data((i+1)*M-1 downto i*M); 
end loop; 
N M <= 21; push <= '1'; 
else N_S <= a0; 
end if; 
when a1 => disp_count <= count; 
if sort enable = '1' then N_S <= al1; count <= 0; 
for i in N-1 downto 0 loop -- copying unsorted data items to the register R 
input items(i) <= input data((i*1)*M-1 downto i*M); 
end loop; 
N M <= zl; push <='1'; 
else N S «- a0; 
end if; 
when others => N S <= a0; 
end case; 
when z1 => 
case FSM stack(stack pointer) is 
when a0 => ready <= '0'; input items <= out2 in3; 
if data sorted = 0 then -- test if there is no swap in the second line of Fig. 5.8c 
N S <= af; sorted <= out2_in3; -- sorted data are ready 
else N S <= a0; count <= count+1; 
end if; 
when a1 => pop <= '1'; 
when others => N S <= a0; 
end case; 
when others => N M <= z0; 
end case; 
end if; 
end process; 


end Behavioral; 

所 描述 的 电路 占用 了 109 片 器 件 和 1 eR ABER RAM. (具有 Artix -7 FPGA 的 
Nexys -4 板 ) 且 已 经 在 硬件 中 测试 过 。 最 大 可 达到 的 时 钟 频率 为 266.7MHz。 注 
意 ， 如 果 采 用 一 个 时 钟 沿 同步 ， 则 频率 会 增加 ( 见 图 5.4b 和 5.2.1 节 )。 


5.3.2 具有 不 明确 模块 的 HFSM 的 综合 


与 有 具有 明确 模块 的 HFSM RR, 具有 不 明确 模块 的 HFSM 的 综合 可 以 是 
Moore, Mealy 和 混合 (Moore 和 Mealy) 模型 。 对 于 Moore HFSM 综合 包括 以 下 的 
步 又 : 

1) 标签 ao 赋 给 主 HFSM 的 开始 节点 ， 主 HFSM 通常 命名 为 z0; 

2) 标签 a ay, ccs ay _1 赋 给 每 个 HGS 中 的 未 标记 的 矩形 节点 (包括 结束 
TA) 

3) 标签 不 能 在 不 同 的 HGS 和 相同 的 HGS 中 重复 (除了 主 模块 zo 中 的 标签 
ao, 也 可 以 赋 给 结束 节点 ) ; 

4) 所 有 和 矩形 节点 必须 标记 ; 

5) 其 他 细节 同 具 有 明确 模块 的 HFSM 。 
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对 于 Mealy HFMM 综合 ， 包 含 以 下 步骤 ， 

1) 标签 ao 赋 给 所 有 HGS 开始 节点 的 后 续 节 点 的 输入 ; 

2) 标签 a a, c0. ay _1 赋 给 矩形 节点 的 后 续 节 点 的 未 标记 输入 和 每 个 HGS 
的 结束 节点 的 输入 ; 

3) 标签 不 能 在 不 同和 相同 的 HGS 中 重复 ( 除 主 HGS z 中 的 标签 a。， 也 可 以 
赋 给 结束 节点 的 输入 ) ; 

4) 任何 输入 只 能 标记 一 次 。 

所 有 其 他 细节 同 具 有 明确 模块 的 HFSM。 混 合 HFSM 允许 Mealy 和 Moore 模型 
组 合 ， 这 样 的 模型 是 实际 应 用 中 最 常用 的 。 而 且 ， 电 路 C 可 使 用 最 合适 的 信号， 
只 依赖 状态 或 者 状态 和 输入 。 

许多 不 同 的 具有 不 明确 模块 的 HFSM (包括 混合 HFSM) 的 综合 例子 见 本 章 参 
考 文献 [5]. 


5.4 ”并 行规 范 和 并 行 HFSM 


一 些 模 块 (如 图 5.6a 中 的 cl_zl füc2 z) 可 以 并 行 执行 ， 如 图 5. 11 Aras. 
进一步 研究 只 有 HGS 的 具有 多 个 宏 操 作 的 矩形 节点 ， 组 成 集 Z, 2, oU. A 
此 ， 宏 操作 的 并 行 执 行 赋 给 每 个 提供 的 集 。 图 5. 11b 中 的 例子 有 三 个 集 ， 即 Z = 
{215 25, | ，22=|z1，z4} ，Z3 = |zz，z3，z4]。 需 要 执行 主 模 块 20 212], H 
多 达 三 个 模块 (MEZ MZ) 需要 并 行 执 行 。 根 据 本 章 参考 文献 [1] 中 提出 的 ， 
并 行 HFSM (PHFSM) 可 以 应 用 以 下 规则 设计 : 

Z,4(A.B,C,D) 








图 5.11 并 行 操作 的 例子 
(1) 每 个 Zi 的 宏 操 作 赋 给 并 行 运行 的 不 同 HFSM。 正 在 执行 调用 模块 的 HFSM 
负责 调用 模块 的 并 行 激活 ， 并 检查 是 否 所 有 从 相同 集中 调用 的 模块 都 被 执行 ( 即 
在 相关 合并 点 之 后 执行 ， 见 图 5. 11)。 图 5. 11b 中 的 例子 赋值 如 下 : HFSM <2, 
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Zz, 2; HFSM,—z, 23, z4; HFSM4—z, zo [E 5. 11a 中 的 例子 赋值 如 下 : HF- 
SMi: —Zi, Z2 (A, B), ZZ (RI, R2); HFSM,<Z? (C, D), 

(2) 每 个 HFSM, 描述 为 VHDL 器 件 ， 有 三 个 额外 的 信号 ， 将 在 第 3 点 中 
介绍 。 

(3) 如 果 调 用 (zj 一 ) 和 被 调用 (—2,) 模块 (zo 一 z,) 属于 相同 的 HFSM 
器 件 ， 则 功能 完全 与 非 并 行 HFSM 相同 (0558 2 点 ) 。 MERE non, RH 2,—, 
az, 属于 不 同 的 器 件 HFSM, 和 HFSM o MEZIRE zo 一 到 一 z,， 涉 及 如 下 三 个 额 
外 的 信号 : @start, 激活 HFSM, (HFSM,—HFSM,); Quz, 选择 模块 ， 从 HFSM, 选 
择 HFSM, 的 一 zp ; @finish, IE BRE oz, Ez T 信号 start, 和 z 在 zu 一 中 形 
R (WE), Ez 中 使 用 。 信 号 finish, 在 一 z, 中 赋值 ， 在 zo 一 测试 。 

(4) 最 后 ,图 5. 11b WS Z, Z5, Z, 的 宏 操 作 并 行 执行 ， 将 在 如 下 三 个 HF- 
SM 器 件 中 提供 : Z | HFSM, (z1), HFSM, (z;), HFSM, (z,;)}, Z,—{HFSM, 
(4), HFSM, (z,)]; Z, —|HFSM, (z;), HFSM, (z4), HFSM, (z4)}o 图 
5. lla Æ Z 2 1Zi (A, B), Zi (C, D)| 的 宏 操 作 并 行 执行 ， 将 在 两 个 HFSM 
器 件 中 提供 ， 即 1 HFSM, (Z? (A, B)), HFSM, (Zi (C, D))}. 

上 述 技术 使 映射 到 VHDL 器 件 的 任何 合理 数量 的 HFSM 同时 执行 。 支 持 在 前 面 
小 节 讨 论 过 的 所 有 HFSM 特性 。 并 行 执行 的 VHDL 器 件 由 单个 HFSM 的 模块 化 和 递 
归 组 成 。 但 是 ,递归 激活 模块 的 并 行 调用 是 不 被 允许 的 。 为 了 提供 必要 的 映射 
到 VHDL 器 件 ， 并 行 HFSM 的 最 大 值 必须 提前 知道 。 并 行 调用 图 Cn Zi 12 ， 
z7, zl; Z> |z, 24105 Za |z, 25, 241). 必须 是 树 状 图 ( 即 并 行 调用 不 允许 
循环 ， 但 可 以 按 序 调用 ) 。 因 此 ,任何 被 调用 模块 不 能 调用 任何 前 辈 模 块 以 及 并 行 

考虑 PHFSM WAF, ME 5. 12 中 的 规范 综合 。 假 定 4 对 操作 (A, B), (C, 
D), (E, F), (G, H) 需要 并 行 执行 。 其 中 一 个 操作 ， 例 如 (A，B) ， 可 以 在 命 
名 为 PHFSM 的 主 模块 中 执行 。 对 于 剩余 的 每 对 操作 ， 主 模块 PHFSM 激活 并 行 分 支 
(Parallel Branch, PB) 并 向 每 个 分 支 提供 信号 start (激活 分 支 ) ， 必 须 执 行 宏 操 作 
z, 以 及 相关 的 操作 ， 如 图 5. 12 所 示 。 任 何 分 支 完成 请 求 操作 都 产生 信号 finish, Hr 
有 并 行 分 支 的 信号 finish 都 在 主 模块 中 检查 ， 以 决定 在 并 行 调用 后 是 否 继续 执行 。 

假定 并 行 操作 必须 通过 单个 操作 执行 ， 比 如 A, B, C, D. 方法 完全 相同 ， 即 
一 个 操作 (如 A) SERAK, HARE CIB, C, D). 从 主 模块 中 激活 ， 在 并 行 
分 支 中 处 理 。 

执行 以 下 C 函数 ged， 有 八 个 参数 ， 在 FPGA 中 : 


unsigned int gcd(unsigned int A, unsigned int B, unsigned int C, 
unsigned int D, unsigned int E, unsigned int F, 
unsigned int G, unsigned int H) 

{ return gcd(gcd(gcd(A,B), ged(C,D)), ged(ged(E,F), ged(G,H))); } 
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PHFSM: entity work.Parallel HFSM -- PHFSM 组 件 


port map (clock, reset, A,B,C,D,E,F,G,H, result, ...); 





^ d PB : entity work.Paralle| branch -并 行 分 支 

PRA UL Gp op HL pa map (clk, start, finish, Op1, Op2, Result, ...); 
PB(C,D,start), 
PB(E,F,start), 
PB(G, H, start) 





SUE, Laus eua 





yc [PBC D. lan, 
tx E F slat 并 行 执行 


PBIG, H, start) 


图 5.12 并 行 设计 输入 的 例子 


个 函数 允许 找到 8 HEXA, B, C, D, E, F, G, H 的 最 大 公 因 数 和 调用 
另 一 个 有 2 操作 数 的 函数 ged。 
unsigned int gcd(unsigned int A, unsigned int B) 
{ int tmp; 
while (B > 0) 
{ if (B > A) { tmp=A; A=B; B=tmp; ) 
else { tmp=B; B= A%B; A=tmp;} ) 
return A; } 


显然 ;四 个 函数 ged (A, B), ged (C, D), ged (E, F), ged (G, H) 可 
以 在 第 一 步 并 ff TE ， 并 给 出 结果 Result A. B, Result C D, Result E. F, Result. G 
H, 在 第 二 步 ， 这 些 结果 将 作为 函数 gcd (Result A B, Result C D) 和 gcd (Re- 
sult E F, Result G H) 的 参数 ， 这 些 函 数 也 并 行 执行 并 给 出 结果 Result A. B. C D 
和 Result E F G H, F—2b (Hei —2b) , PRX eed (Result A B. C D, Result_E_ 
F G H) 计算 最 后 的 结果 ， 即 8 个 无 符号 整数 A、B、C、D、E、F、G、H 的 最 大 
公 因 数 。 上 面 讨论 的 所 有 函数 可 以 在 PHFSM 中 执行 ，PHFSM 的 功能 用 图 5 13 的 
JÍT HGS 描述 。 开 始 时 ,测试 操作 数 A、B、C、D、E、D、G、H， 如 果 有 一 位 操 
作 数 为 0， 则 不 执行 下 面 的 步骤 ,结果 赋予 0。 如 果 所 有 的 操作 数 都 不 为 0， 则 同 
时 激活 四 个 具有 不 同 参 数 的 模块 z: 。 所 有 都 结束 时 ， 这 些 模块 的 结果 作为 两 个 新 
调用 的 z, 的 操作 数 并 行 运 行 。 最 终结 果 在 底部 模块 ma 中 产生 。 

接 下 来 是 两 个 完整 可 综合 的 VHDL 规范 ， 允 许 设计 执行 图 5.13 所 示 算 法 的 硬 
件 电路 S。 第 一 个 规范 (实体 Parallel. HFSM iterative). 对 应 前 面 讨论 的 C 函数 。 第 
二 个 规范 (实体 Parallel HFSM_recursive) 基于 5.2.1 节 给 出 的 递归 C 函数 RGCD。 
因此 ， 在 所 有 并 行 运行 的 模块 | 中 都 存在 递归 调用 。 图 5. 14 关于 通用 接口 。 交 互 
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在 两 个 额外 信号 的 帮助 下 管理 ， 即 
enable 和 ready。 后 者 由 电路 S 产 
生 ， 用 于 指明 已 准备 好 处 理 新 的 操 
作 数 集 A, B, C, D, E, F, G, 
H。 信 号 enable 由 系统 形成 ， 与 电 
路 S 交互 ， 用 于 指明 新 的 数据 集 
A, B, C, D, E, F, G, H nj FH 
于 进一步 的 处 理 。 
HR. EN WR DIT rh RENT 
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VHDL rem 操作 来 寻找 两 个 操作 数 人 [e S— — niai - 
的 余数 。 从 初步 经 验 中 发 现 ， 如 果 Reute Reut CH] 

操作 数 的 大 小 增加 ， 则 最 大 可 达到 "^y m 

时 钟 频率 会 急速 减 小 ， 而 且 整 数 最 < 

大 值 的 大 小 (操作 rem. 要 求 的 类 yt 

型 ) 被 限制 。 因 此 决定 使 用 额外 的 "suit E F GR) 

HFSM 模块 zy 执行 相似 的 操作 。 从 最 终 状态 

本 章 参 考 文献 [30] 中 采用 简单 的 









算法 。 图 5. 15 所 示 为 关于 不 同 HCS 图 5.13 并 行 HGS 寻找 8 位 非 负 整数 的 最 大 公 因 数 


( 模块 ) Zo 9 Zi , Z2 的 基本 组 织 。 
一 其 他 语句 
if (ready ='1') then enable <='1'; 


janie senabie |. a S 
wady NRM on Renee TEN 










一 其 他 语句 
when init => N S <= init; ready <= '1'; 
if enable = "1' then 
— if «there is at least one operand equal to zero > then «assign the result to zero > 
else «copy operands to the modules z,> 
N M <= z1; push <= '1* start! <= '1'; start2 <= '1'; start3 <= '1'; N_S <= run; ready <='0'; 
end if; 
end if; 
一 其 他 语句 










图 5.14 最 大 公 因 数 的 高 级 系统 的 界面 


第 一 个 HGS zo 测试 操作 数 是 否 为 0， 并 激活 迭代 模块 z;/ 。 如 果 需 要 找到 余数 ， 
则 将 必要 的 数据 复制 到 变量 local. divisor 和 local. remainder 中 ， 并 激活 模块 zo。 后 者 
执行 周期 算法 21 ， 要 求 变量 索引 控制 完整 的 M 个 周期 ， 其 中 M 是 操作 数 的 大 小 。 模 
块 的 并 行 调用 (ILE 5.13) 在 单独 模块 中 完成 ， 如 图 5. 16 所 示 ， 单 独 模块 执行 它们 
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when z0 => 
case FSM stack(stack pointer) is 
when init => N_S <= init; 
if ((A = 0) or (B = 0)) then 
Result <= (others => '0'); 
else FSM_A<=A; FSM_B<=B; 






N M <=21; push <='1'; A 和 B 的 余数 : 
end if; ! 
when others => init; A%B 
end case; 


的 余数 


















when z1 => 
case FSM_stack(stack_pointer) is 
when init => N_S <= init; 
if (FSM B»0) and (FSM_B>FSM_A) then 
FSM A <= FSM_B; FSM_B <= FSM_A; 
elsif (FSM_B>0) and (FSM_B8<=FSM_A) then 
FSM_A <= FSM_B; 
local_divisor(2*M-1 downto M) := FSM_B; 
local_divisor(M-1 downto 0) := (others => '0'); 
local_remainder(M-1 downto 0) := FSM_A; 
N_M <= 22; push <= '1'; index := 0; 


else Result <= FSM A; pop <= '1'; 
finish <= '1'; 
end if; 
when others => N_S <= init; 
end case; 










when 22 => 
case FSM_stack(stack_pointer) Is 
when init => 
if local. divisor > local remainder then N S <= run d; 
else N_S <= run; 
end if; 
when run => N S <= run d; 
local remainder := local remainder- 
local divisor(M-1 downto 0); 
when run d => local divisor := '0' & 
local divisor(2* M-1 downto 1); 
index := index+1; 
if (index = M+1) then N_S <= final_state; 
else N_S <= init; 
end if; 
when final state => N_S <= final state; index := 0; 
-f> FSM_B <= local remainder(M-1 downto 0); pop <= '1'; 
when others => init; 
end case; 

















图 5.15 两 个 非 负 整数 的 最 大 公 因 数 的 HGS 
自己 的 操作 〈 寻 找 两 个 操作 数 的 最 大 公 因 数 ) ， 并 激活 描述 为 VHDL 器 件 的 并 行 
块 。 信 号 start 完成 激活 ， 通 过 检查 信号 finish 的 值 来 检查 模块 的 结束 ( 见 图 5. 12). 


process (clk) 







测试 所 有 输入 
A. H SEAR ATO 








运行 (finish1='4) 和 
(finish2 = '1') 和 
{finish3 ='1') 


个 并 行 模 


运行 完成 


final_state 


得 到 最 终结 果 


variable local remainder : std logic vector(M-1 downto 0) := (others => '0'); 
variable local divisor :std logic vector(2*M-1 downto 0) := (others => '0'); 
variable index : integer range 0 to M+1 := 0; 

begin 

if falling edge(clk) then 

push <= '0'; pop <= '0'; 





start1 <= '0'; start2 «- 'O'; start3 <= '0'; — 
case M_stack(stack_pointer) is zo 
when 20 => 


case FSM_stack(stack_pointer) is 
when init => N_S <= init; ready «- '1; if enable = '1' then 
if ((A = 0) or (B = 0) or (C = 0) or (D = 0) or (E = 0) or 
(F = 0) or (G = 0) or (H = 0)) then Result <= (others => '0'); 


else C in <=C; D in «- D; FSM A <= A; FSM B <= B; 
N_M <= zl1; push «- '1'; startl <= '1'; start2 <= '1; 
start3 <= '1'; N S <= run; ready <='0'; | 
end if; end if; | 


when run => N_S <= run; | 
if (finish1 = '1') and (finish2 = '1') and (finish3 = '1') then 
N_S <=run_d; 
FSM_A <= Result_A_B; 
FSM_B <= Resuit C D; N_M <= 21; push <='1'; 
C in <= Result E F; D in <= Result_G_H; start1 <='1'; 
else null; | 
end if; 
when run d => N S <= run d; 
if finish1 ="1' then N S <= final state; FSM A <= Result A B; 
FSM_B <= Result C D; N M <=21; push «- 1; 
else null; 
end if; 
when final state => N S <= init; Result <= Result A B; 
when others => N S <= init; 





LAN vend case; MEN 
图 5.16 八 个 非 负 整数 的 最 大 公 因数 的 HGS 
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以 下 VHDL 代码 给 出 了 八 个 非 负 整 数 操作 数 的 最 大 公 因 数 的 完整 规范 ， 采 用 
ARRI: 
entity Parallel HFSM is 


generic (stack_size : integer; -- stack size is the size of the HFSM stack 
M : integer); -- M is the size (the number of bits) of operands 
port( clk :in std logic; -- system clock (100 MHz for Nexys-4) 
rst :in std logic; -- reset signal (the button BINC was used) 
A,B,C,D,E,F,G,H : in std_logic_vector(M-1 downto 0); -- M-bit operands 
Result :outstd logic vector(M-1 downto 0); -- M-bit result 
overflow : out std logic; -- HFSM stack overflow signal 
enable : in std logic; -- enable signal 
ready :outstd logic); ^ -- ready signal 


end Parallel HFSM; 


architecture Behavioral of Parallel HFSM is 
signal FSM A, FSM B : std logic vector(M-1 downto 0); 


type state type is (init, run, run d, final state); --* 
signal N_S : state type; -* 
type MODULE TYPE is (z0, z1, z2); 一 


-- the lines marked with *** in the entity IGCD in section 5.2.1 

-- except for state. type and MODULE TYPE 

signal C in, D in :Std logic vector(M-1 downto 0); 
signal Result A B :std logic vector(M-1 downto 0); 
signal Result C D :Std logic vector(M-1 downto 0); 


signal Result E F :Std logic vector(M-1 downto 0); 

signal Result G H  :std logic vector(M-1 downto 0); 

signal overflow1, overflow2, overflow3, overflow4 — :std logic; 

signal start1, start2, start3, finish1, finish2, finish3 — : std logic; 
begin 


overflow «- overflow1 or overflow2 or overflow3 or overflow4; 


-- the process from the entity IGCD in section 5.2.1 in which the state initAB is 
-- replaced with the state init 


process (clk) 
variable local remainder : std_logic_vector(M-1 downto 0) := (others => '0'); 


variable local_divisor : std_logic_vector(2*M-1 downto 0) ‘= (others => '0); 
variable index : integer range 0 to M+1 =0; 
begin 


if falling_edge(clk) then 
push <= '0 pop <= '0" start! <= '0" start2 <= '0'; start3 <= '0'; 
-- the module z, from Fig. 5.16 
-- the module C(z,) from Fig. 5.15 without the signal finish 
~ the module C(z;) from Fig. 5.15 
when others => null; 
end case; 
end if; 
end process; 
C D: entity work.Parallel branch 
generic map(stack size => stack size, M => M) 
port map (clk, start, finish1, C in, D in, Result C. D, overflow2); 
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E F: entity work.Parallel branch 

generic map(stack size => stack size, M => M) 

port map (clk, start2, finish2, E, F, Result E F, overflow3); 
G H: entity work.Parallel branch 

generic map(stack size => stack size, M => M) 

port map (clk, start3, finish3, G, H, Result G. H, overflow4); 
end Behavioral; 


entity Parallel branch is 


generic( stack size ^ :integer; 
M : integer ); 
port ( clk :in std logic; 
reset :in STD LOGIC; 
finish : out STD LOGIC; 
A, B : in std_logic_vector(M-1 downto 0); 
Result : out std_logic_vector(M-1 downto 0); 
overflow : out std logic); 


end Parallel branch; 


architecture Behavioral of Parallel branch is 
signal FSM A, FSM B: std logic vector(M-1 downto 0); 


-- the lines marked with * from the code above (entity Parallel. HFSM) 
-- the lines marked with *** in the entity IGCD in section 5.2.1 
~- except for state. type and MODULE TYPE 

begin 


-- the process from the entity IGCD in section 5.2.1 in which the state inithB 
-- is replaced with the state init 


process (clk) 


variable local remainder : std logic vector(M-1 downto 0) := (others => '0'); 
variable local divisor — :std logic vector(2*M-1 downto 0) := (others => '0'); 
variable index : integer range 0 to M+1 =0; 

begin 


if falling_edge(clk) then push <= '0'; pop <= '0'; finish <= '0* 
case M_stack(stack_pointer) is 
-- the module C(z,) from Fig. 5.15 
-- the module C(z,) from Fig. 5.15 
-- the module C(z,) from Fig. 5.15 
when others => null; 
end case; 
end if; 
end process; 


end Behavioral; 
实体 Parallel. HFSM 可 以 作为 高 级 系统 的 器 件 ， 代 码 如 下 : 


entity test 4 parallel HFSM iterative is 
generic (stack size : integer := 2; M : integer := 32); - the size of operands is 32 bits 


port ( clk : in std logic; -- system clock 100 MHz for the Nexys-4 board 
rst :in std logic; -- BINC button for the Nexys-4 board was used 
rec :in std. logic; -- switchI5 (Nexys-4) 
sel :in std logic vector(2 downto 0); ~ switches 2-0 (Nexys-4) 
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use sw : in std logic; -- switchl4 (Nexys-4) 

sw :in std_logic_vector(10 downto 0); — -- switches 13-3 (Nexys-4) 
overflow : out std_logic; ^ -- stack overflow in at least one HFSM 

Result! : out std_logic_vector(M-1 downto 15);- bits of the result on PMod pins 
led : out std logic vector(14 downto 0) ); -- bits of the result on LEDs 


end test 4 parallel HFSM iterative; 


architecture Behavioral of test 4 parallel HFSM iterative is 
signal A,B,C,D,E,F,G,H: std logic vector(M-1 downto 0) := (others => '0'; 


signal Result : std logic vector(M-1 downto 0););-- M-bit result 
signal enable, ready — : std logic; 
begin 
Result1 <= Result(M-1 downto 15); -- bits of the result to PMod pins 
process (clk) 
begin 


if rising edge(clk) then 
if (ready ='1') then enable <= '1'; 
if (rec='1') then -- use one of fixed or generated data sets 
case (sel) is -- fixed (or generated) data sets selected by onboard switches 2,1,0 


when "000" => A<=A+1; B<=B+1; C<=C+1; D<=D+1; E<=E+1; F<=F+1; 
G<=G+1; H<=H+1; -- change values of operands somehow 
when "001" =>A<=conv_std_logic_vector(152,M); -- the first fixed set 
B<=conv_std_logic_vector(38, M); C<=conv_std_logic_vector(209, M); 
D<=conv_std_logic_vector(133, M); E<=conv_std_logic_vector(95, M); 
F<=conv_std_logic_vector(57, M); G<=conv_std_logic_vector(247, M); 
H<=conv_std_logic_vector (171, M); -- the result is 19: — 10011 
-- other fixed sets 
when others => 
A <= conv std logic vector (3303375, M); -- the last fixed set 
B«-conv std logic vector(20809539, M); 
C«zconv std logic vector(127666539, M); 
D«zconv std logic vector(19533, M); 
E«zconv std logic vector(1147851, M); 
F<= conv std logic vector(1320201, M); 
G«zconv std logic vector(20980740, M); 
H«- conv std logic vector(688479651, M); 
-- the result is 1149: 10001111101 
end case; 
if use sw = '1' then 
H <= (31 downto 11 => '0') & sw; -- onboard switches can be used 
end if; -- onboard switches 13,...,3 can be used to change 10 least significant bits of H 
else -- a default set, the result is 3: |l 
A«- conv std logic vector(33, M); 
B<= conv. std logic vector(60, M); 
C<= conv std logic vector(1200, M); 
D«- conv std logic vector(57, MJ; 
E«- conv. std logic vector(6, M); 
F<= conv. std logic vector(399, M); 
G<= conv. std logic vector(63, M); H«-conv. std logic vector (24, M); 
end if; 
else enable <= '0'; 
end if; 
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end if; 
end process; 
PHFSM: entity work.Parallel HFSM iterative 
generic map(stack size => stack size, M => M) 
port map (clk, rst, A, B, C, D, E, F, G, H, Result, overflow, enable, ready); 


led <= Result(14 downto 0); -- 15 onboard LEDs were used for indicating the binary result 


end Behavioral; 
在 第 二 个 GER) 规范 中 (实体 Parallel HFSM_recursive) 只 改变 了 模块 z， 
现在 它 有 如 下 代码 ; 
when z1 => 
case FSM stack(stack pointer) is 
when init => N. S <= final state; 
if (FSM B»0) then 
if (FSM B»FSM A) then FSM A <= FSM B; FSM B <= FSM A; 


N. M <= zl; push <='1'; -- recursive call of z, 
else FSM_A <= FSM Bj N_S <=run; 
local divisor(2*M-1 downto M) := FSM B; 
local divisor(M-1 downto 0) := (others => '0'); 
local_remainder(M-1 downto 0) = FSM_A; 
N_M <=z2; push <='1'; index := 0; -- non-recursive call of z, 
end if; 
else Result <= FSM_A; 
end if; 


when run => N M <= z1; push <= '1'; N_S <= final state; -- recursive call of z, 

when final state => N_S <= final state; finish <= '1'; pop <= '1'; -- note that the 

when others => init; -- statement finish « —'I' has to be removed in the entity Parallel_HFSM 
end case; 


剩余 的 代码 是 一 样 的 ， 在 实体 test_4_parallel_HFSM_iterative 中 完成 测试 ， 其 中 
Parallel. HFSM iterative 需要 用 调用 人 迭代 模块 2 的 新 器 件 代 替 。 

综合 、 执 行 和 测试 的 结果 表现 了 如 下 内 容 : 基于 迭代 算法 的 工程 需要 645 tt 
件 (从 Nexys -4 板 的 FPGA 中 可 用 的 15850 片 中 选择 ) ， 允 许 最 大 可 达到 时 钟 频率 
为 133. 1MHz。 基 于 递归 算法 的 工程 需要 63 片 ， 允 许 最 大 可 达到 时 钟 频率 为 
124. 2MHz。 显 然 对 于 周期 算法 ， 递 归 调 用 没有 任何 优势 ， 但 是 ， 对 于 基于 树 结 构 
的 算法 ， 递 归 模 块 可 能 比 迭 代 模块 更 高 效 2352 人] 。 


5.5 基于 HFSM 模型 的 软件 程序 的 硬件 执行 


众所周知 '”'”] ， 善 通 迭 代 和 特殊 递归 在 硬件 中 执行 比 在 软件 中 高 效 。 这 是 因 
为 任何 模块 的 激活 都 可 以 和 算法 要 求 的 操作 执行 组 合 〈 微 操作 ) 。 任 何 模块 结束 时 
发 生 相同 的 事件 ， 即 控制 必须 返回 到 最 后 一 次 递归 调用 之 后 的 点 ， 紧 随 最 后 一 次 递 
归 调 用 被 激活 的 算法 执行 操作 。 硬 件 中 的 递归 执行 要 求 的 状态 数 ， 可 以 相 比 软件 减 
^P. 而且， 后面 将 讲述 (在 5.6 15) 状态 可 以 存 人 栈 存 储 器 中 ， 栈 存储 器 在 内 置 


212 
— — — BENIN 


à 第 5 章 _ 基 于 层次 和 并 行 技术 机 范 QM 





存储 模块 中 执行 。 而 且 ， 板 并 行 性 可 以 直接 支持 ( 见 5.4 市 )。 已 知 的 方法 获得 的 
结果 ， 比 如 在 本 章 参考 文献 [4] 中 回顾 的 方法 ， 表 明 在 硬件 中 执行 的 层次 调用 比 
软件 程序 执行 相同 的 功能 速度 快 。HFSM 的 增强 模块 允许 不 同类 型 参数 在 硬件 模块 
中 传递 并 从 此 模块 中 返回 值 ， 很 像 在 软件 程序 中 ， 如 本 章 参考 文献 [1] 中 描述 的 
那样 执行 。 

在 图 5. 13 中 模块 2, 可 以 并 行 运行 。 每 个 模块 有 两 个 参数 并 返回 一 个 值 。 在 硬 
件 中 提供 相同 的 功能 ， 需 要 做 到 中 传递 参数 的 值 ; @ 返 回 值 。 

考虑 文献 [1] 中 的 例子 。 以 下 C 代码 (其 中 函数 treesort 是 递归 调用 的 ) 从 
给 定 的 二 进 制 树 中 构造 并 返回 已 排序 的 列表 〈 如 本 章 参考 文献 [28] 中 研究 的 ) : 


ValueAndCounter treesort(treenode* node) { // node is a pointer to the root of the tree 


ValueAndCounter* tmp; // tmp is a temporary pointer to a list item 
. static ValueAndCounter* ttmp=0; /I at the beginning the list is empty 
if(node!=0) 
{ // if the node exists 
treesort(node-»Inode); // sort left sub-tree 
imp 7 new ValueAndCounter; // allocate memory for a new list item tmp 
tmp->next=ttmp; [I store pointer to the previous list item 
tmp->val = node->val; // save the value 
tmp->count = node->count;  // save the number of repetitions of the value node->val 
ttmp = tmp; // extend the list 
treesort(node-»rnode); // now sort right sub-tree 


return ttmp; 


) 


Any tree node has the following structure: 


struct treenode ( 


int val; // value of an item of type int 
int count; // number of items with the value val 
treenode* Inode; // pointer to left sub-tree 


treenode* rnode; }; // pointer to right sub-tree 
Any list item has the following structure: 


struct ValueAndCounter { 


int val; // value of an item of type int 
int count; // number of items with the value val 
ValueAndCounter* next; }; ÍI pointer to the next item of type ValueAndCounter 


假定 已 建立 树 〈 如 采用 本 章 参 考 文献 [28] 中 的 方法 ) 。 树 节点 包括 四 个 领 
域 ， 即 指向 右 子 节点 的 指针 、 指 向 左 子 节点 的 指针 、 计 数 器 和 值 (在 该 例子 中 是 
整数 ) 。 节 点 保持 如 下 形式 ， 即 在 任何 节点 ， 左 边 子 节点 的 值 比 该 节点 值 小 , 右边 
子 节点 的 值 比 该 节点 值 大 。 计 数 器 计数 与 相应 节点 相关 联 的 值 发 生 的 次 数 。 

如 果 调 用 具有 语句 beginning = treesort (root); 的 函数 ， 则 返回 指向 已 排序 数 
据 列 表 的 指针 。 在 硬件 中 执行 相似 的 功能 需要 做 到 : 中 通过 指针 传递 参数 ; Qik IH 
指针 。 
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为 了 支持 上 面 的 特征 ， 增 加 了 存储 参数 的 栈 存 储 器 (RA AR stack) 和 存储 

返回 值 的 栈 寄 存 器 5 ， 如 图 5. 17 所 示 。 

上 “外 部 输入 


M Stack |-—] 
+ L | 电 











FSM stack |---| 


外 部 输出 l f 
图 5.17 使 用 额外 的 器 件 用 于 通过 参数 和 返回 值 /指针 


现在 C 函数 可 以 转换 为 HFSM， 方 法 如 下 : 

(1) 使 用 前 面 考虑 的 模板 在 VHDL 中 明确 栈 存储 器 。 

(2) 其 他 基于 VHDL 模板 描述 的 模块 ， 使 用 以 下 额外 的 规则 : 

1) 当 模 块 (相应 C 函数 创建 的 ) 被 激活 时 ， 值 传递 的 参数 存储 在 AR_ 
stack HF; 

2) 传递 到 相同 函数 的 不 同 参数 时 ， 根 据 实 际 数量 的 参数 ， 被 明确 的 不 同 HDL 
模块 识别 ， 这 可 以 视 为 复制 函数 到 重 载 软件 的 硬件 技术 ; 

3) 当 模 块 (相应 C 函数 创建 的 ) 被 激活 时 ， 每 个 参数 都 是 一 个 指针 ， 地 址 存 
在 AR. stack 中 。 

4) 当 模块 结束 时 ， 单 独 返回 值 / 指 针 复制 到 特定 分 配 的 寄存 器 ， 先 前 传递 到 
这 个 模块 的 所 有 参数 都 被 摧毁 。 

三 个 栈 存 储 器 (FSM_stack, M_stack, AR_stack) 都 在 以 下 VHDL 进程 中 


描述 : 
process(clock) 
begin -- a is an initial state; zo is a top-level module 
if rising edge(clock) then stack overflow <= '0'; 
if reset = '1' then stack pointer <= 0; FSM stack(0) <= a0; 
M stack(0) <= z0; stack overflow <= '0 AR stack(0) <= (others => '0’); 
else 
if push = '1' then 
if stack pointer = stack size then -- handling stack overflow 
else stack_pointer <= stack_pointer + 1; 
FSM_stack(stack_pointer+1) <= a0; -- initial state is a0 
FSM stack(stack pointer) <= N S; -- N_S is the next state in the calling module 
M stack(stack pointer*1) <= NextModule; `-- NextModule is the next module 
AR stack(stack pointer*1) <= pass arguments; -- passing arguments 
end if; 
elsif pop ='1' then 
Stack pointer <= stack_pointer- 1; -- decrementing the stack pointer when the 
else -- module is terminated 
FSM stack(stack pointer) <=N_S; -- conventional state transition to N_S 
end if; 
end if; 
end if; 


end process; 
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因为 这 里 是 单 值 返回 ， 所 以 保存 为 信号 ， 声 明 如 下 : 
signal return_value : std_logic_vector(size_of_operands-1 downto 0); 
其 中 size_of_operands 是 类 属 常量 。 

参数 在 调用 模块 中 准备 ,方法 如 下 : 


when stateWhereTheCalledModuleActivated => push <= '1'; NextModule <= <name>; 
pass_arguments(<index range>) <= <arguments>; -- preparing arguments 


返回 值 产生 方式 如 下 : 


when stateWhereTheResultlsProduced => N_S <= indicatingTheNextState; 
return_value <= signalThatKeepsTheResult, 


5.6 BASU Th s Be fia ae 


注意 ， 当 HFSM 栈 存 储 器 作为 逻辑 模块 时 需要 非常 多 的 硬件 资源 。 但 是 ， 它 也 
可 以 由 对 入 式 或 者 分 布 式 存储 器 在 FPGA 中 建立 。 因 为 信号 push, pop, clock, reset 
和 stack. pointer 对 所 有 栈 存 储 器 是 一 样 的 ， 所 以 存储 器 可 以 组 织 为 图 5. 18 所 示 的 样 
子 。 模 块 /分 布 式 RAM 〈 见 图 5. 18 中 的 RAM block) 建立 栈 存储 器 的 VHDL 代码 如 下 : 


process(clock) 
begin -- states and modules are represented by binary codes 
if rising_edge(clock) then stack_overflow <= '0'; 
if reset = '1' then 
stack pointer <= 0; stack overflow <= '0'; -- see Fig. 5.18a 


FSM Register <= (others => '0'); -- see Fig. 5.18c 
else 
if push = '1' then -- hierarchical call 


if stack pointer = 2**ram_addr_bits-1 then stack overflow <= '1*; 
else stack pointer «- stack pointer * 1; 

-- the arguments are passed through the signal to. AR 

FSM Register <= to AR &N M& 

(size of FSM stack words-1 downto 0 => '0'); 

RAM block(stack pointer) <= to AR& C M&N. S; 

end if; 
elsif pop = '1' then -- hierarchical return 

stack_pointer <= stack_pointer - 1; 
FSM_Register <= RAM_block(stack_pointer-1); 


else -- conventional transition 
FSM_Register(size_of_FSM_stack_words-1 downto 0) <= N S; end if; 
end if; 
end if; 


end process; 


RAM block 声明 为 和 矩阵， 如下: 


constant ram_width :integer := <size of words for the stack shown in Fig. 5.18a,b> 
constant ram_addr_bits : integer := «size of MM addresses 
type DistributedRAM is array (2**ram_addr_bits-1 downto 0) of 
std logic vector (ram width-1 downto 0); 
signal RAM block: DistributedRAM; -- Block MM is declared similarly to distributed RAM 
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AR_stack M stack FSM stack 
寸 钟 信 号 
ef <— iW bla 
At 
am 
xe 
zE stack_pointer 
hz 
^ < 一 一 复位 信号 
栈 寄存 器 用 于 调用 模块 
E r ]- Rod 
RAM block(stack pointer) 下 一 状态 在 层次 调用 之 后 


模块 


C_S 当前 状态 


b) 
FSM 的 传统 寄存 器 
| oaa o j|NM| < 层次 调用 和 传统 转换 都 需要 
FSM_Register 个 


下 一 模块 (被 调用 ) 在 传统 NS 下 一 状态 
转换 的 层次 调用 或 当前 模块 
c) 


图 5.18 a) HR AGX/41 fix RAM 的 单个 模块 用 于 图 5. 17 的 三 个 栈 
b) 激活 栈 寄存 器 c) 状态 转换 /层次 调用 (通过 FSM 传统 寄存 器 ) 


5. 19 所 示 为 在 HFSM 中 的 不 同类 型 的 转换 ， 包 括 层次 调用 ( 见 图 5. 19a) 、 
传统 状态 转换 ( 见 图 5. 19b) 和 层次 返回 〈 见 图 5. 190) 。 注 意 ， 栈 存储 器 在 层次 
调用 模块 中 是 消极 的 〈 即 栈 存 储 器 只 在 被 调用 模块 的 层次 返回 时 需要 )。 因 此 ， 只 
有 寄存 器 (FSM Register) 可 以 用 于 传递 参数 、 执 行 状态 和 模块 转换 。 到 下 一 状态 
的 转换 完成 (如 层次 调用 ) 时 ， 将 具有 参数 (t AR) 的 二 进 制 向 量 (BVe= to_ 
AR & N_M & <first state with all zeros > ) 和 具有 初始 状态 (全 为 0) 的 被 调用 模块 
的 代码 (N M) 复制 到 寄存 器 ， 如 图 5. 19a 所 示 。 

传统 状态 转换 执行 类 似 使 用 寄存 器 FSM_Register 的 普通 FSM， 如 图 5. 19b 所 
示 。 参 数 直 接 从 寄存 器 (FSM_Register) 中 读 出 。 

一 旦 层次 返回 完成 ， 来自 栈 存储 器 的 二 进 制 向 量 (BVr) 如 图 5. 19c Pras (E 
含 参 数 、 调 用 模块 的 代码 和 被 调用 模块 结束 之 后 调用 的 模块 的 下 一 状态 的 代码 )， 
复制 到 FSM_Register (FSM_Register < = RAM block (stack pointer -1);)。 因此， 
调用 模块 会 继续 执行 。 

描述 艇 人 式 或 分 布 式 存储 器 的 进程 代码 行 RAM_block (stack pointer) < = to_ 
AR & CM & NS; 设置 下 一 状态 N_S 的 代码 ， 状 态 N_S 在 调用 模块 结束 后 是 需要 
的 。 因 此 ， 在 相应 的 层次 返回 之 后 ， 转 换 到 合适 的 HFSM 状态 (FSM_Register < = 
RAM. block (stack pointer - 1) ;) 。 因 为 在 调用 模块 之 前 下 一 状态 就 已 经 决定 了 ， 
所 以 被 调用 模块 不 能 改变 提前 决定 的 状态 转换 。 在 大 多 数 实际 应 用 中 ， 这 个 并 不 会 
产生 问题 。 但 是 ， 在 某 些 情况 下 这 样 会 产生 问题 ， 而 且 这 些 问 题 必 须 解决 。 产 生 的 
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层次 调用 调用 模块 被 调用 模块 


在 被 调用 模块 的 参数 
Y 调用 模块 的 参数 cM] NSS 


人 
“被 调用 模块 的 参数 N_M ARE 
BV, 
做 入 起 或 分 布 式 存储 


V up i 
FSM Register 接收 参数 N-M( 被 调用 模块 的 代 
码 ) 和 初始 状态 
器 栈 (RAM_block) 


传统 状态 转换 a) 调用 模块 的 下 一 状态 












为 后 续 层次 
P m 返回 复制 到 栈 


可 能 用 于 新 的 被 调用 模块 中 


| 









调用 模块 的 代码 
Lider 被 调用 模块 变 为 当前 模块 
被 调用 模块 中 的 状态 转换 
层次 返回 





| 被 调用 模块 的 村 项 。 
eae “| Pop 
Tame Ev] | 


嵌入 式 或 分 布 式 存 
储 器 模块 中 的 栈 (RAM block) 
c) 


图 5.19 三 类 HFSM 中 的 栈 转换 
a) 层次 调用 b) 传统 转换 c) 层次 返回 









这 些 问题 可 以 通过 用 声明 RAM block (stack pointer) < = to_AR & C_M & C_S; 
代替 上 述 代 码 行 来 解决 ， 其 中 C_S (调用 模块 的 当前 状态 ) 必须 进一步 用 N_S fX 
替 ， 这 是 考虑 了 调用 模块 中 会 潜在 改变 的 状态 。 这 样 的 代 幸 方法 在 本 章 参 考 文献 
[31] 和 5.7.1 节 中 讨论 。 

注意 ， 具 有 杉 入 式 或 分 布 式 栈 存 储 器 的 HFSM 的 完整 可 综合 的 VHDL 工程 可 以 
在 本 章 参考 文献 [5] 中 找到 。 


5.7. 优化 技术 


本 小 节 将 讲述 HFSM 综合 的 优化 技术 5] ， 即 在 执行 层次 返回 时 ， 使 用 子 算 法 
(HGS) 的 多 人 口 点 和 快 栈 解 除 。 
5.7.1 层次 返回 

在 层次 调用 时 ， 代 码 行 FSM_stack (stack pointer) < =N_S; 设置 下 一 状态 N_S 
的 代码 。 因 此 层次 返回 之 后 ，FSM_stack 的 顶端 寄存 器 具有 合适 的 HFSM 状态 代 
码 。 因 为 在 调用 模块 之 前 下 一 状态 就 已 经 决定 了 ， 所 以 被 调用 模块 不 能 改变 状态 转 
换 。 在 许多 实际 应 用 中 ,这 并 不 会 产生 问题 。 但 是 在 某 些 实际 情况 中 ， 这 就 是 问 
题 ， 必 须 解 决 。 如 果 移 除 代码 行 FSM stack (stack pointer) < =N_S;， 层 次 返回 
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之 后 ，FSM_stack 的 顶端 寄存 器 具有 已 结束 模块 被 调用 的 状态 代码 。 这 样 可 以 提供 
当前 的 状态 转换 到 下 一 状态 ， 因 为 所 有 可 能 的 在 被 调用 模块 中 已 经 改变 的 逻辑 条 件 
已 经 接收 到 合适 的 值 。 但 是 ， 这 样 会 产生 其 他 问题 ， 即 避免 重复 调用 在 该 状态 已 调 
用 的 模块 ， 和 产生 不 必要 的 输出 ， 如 图 5.20 所 示 。 以 下 代码 用 于 克服 这 个 问题 : 








只 当 return flag 等 于 0 
时 允许 模块 调用 和 操作 Wiretum flagyl, Me 
os 调用 模块 的 层次 返回 器 件 





\ 

x |2% 

gi cs if 
Eg 逻辑 条 件 ， 可 能 在 
= |g 被 调用 模块 中 改变 ,。 
zia < i 





图 5.20 层次 返回 的 执行 


-- see VHDL description for stacks 
elsif pop = '1' then 
stack_pointer <= stack_pointer - 1; 
return flag <= '15 
else FSM stack(stack pointer) <= N. S; 
return flag <= '0". 
end if; 
言 号 retur flag 允许 模块 调用 ， 输 出 操作 在 层次 调用 时 被 激活 ， 在 层次 返回 时 
被 避免 ”] 。 而 且 ， 当 信号 stack pointer 减少 时 ，return_flag 在 时 钟 周期 内 等 于 1。 
一 旦 当前 激活 (调用) 模块 结束 ， 控 制 流 将 从 被 调用 模块 返回 到 调用 模块 。 因 此 ， 
M. stack 的 顶端 将 具有 调用 模块 (2) 的 代码 和 TSM_stack 的 顶端 将 存储 调用 状态 
(a 一 ) 的 代码 。return_flag 消除 相同 模块 的 二 次 调用 (以 及 相关 输出 信号 的 二 次 激 
活 )。 这 个 在 以 下 必须 插入 描述 转换 和 操作 的 进程 代码 行 的 帮助 下 实现 ( 见 图 


5. 20): 


when state_with_module_call 
if return_flag='0' then push<='1', -- specifying operations and calling the next module 
else push<="'0'; -- no operation and no module call is involved 


end if; 


最 后 ， 提 出 的 技术 允许 在 调用 模块 结束 后 测试 逻辑 条 件 ， 这 或 许 会 改变 这 些 
条 件 。 
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5.7.20 HGS 的 多 入 口 点 


任何 前 文 考虑 的 层次 模块 调用 都 会 激活 新 的 HGS， 从 开始 节点 〈 以 某 种 方式 
与 状态 ao 关联 ) 开始 ， 通 常 来 说 ， 这 个 节点 不 具有 微 操 作 。 跳 过 节点 ao 将 从 层次 
调用 中 移 除 一 个 时 钟 周期 。 但 是 这 样 的 话 ， 相 关 的 HGS 可 能 需要 多 个 人 口 点 ， 特 
定 入 口 点 将 选择 葵 形 /三 角形 节点 (在 图 5.21 中 用 椭圆 圈 住 的 ) ， 这 些 节点 在 调用 
模块 中 测试 〈z 一 ) 。 这 里 ，NM_FS 是 下 一 模块 的 第 一 状态 。 栈 存储 器 的 描述 必须 
稍 作 调整 如 下 : 

FSM_stack(stack_pointer+1) <= NM_FS; 


调用 模块 被 调用 模块 这 个 状态 
ac 可 以 跳 过 





if x1='0' then NM_FS<=a1; 
elsif x2='0' then NM_FS<=a3; 
else NM_FS<=a2; 
end if; 
































a, 








图 5.21 为 HGS 提供 多 入 口 点 

5.7.3 快 栈 解除 

在 结束 节点 之 前 ， 一 些 HGS 被 递归 调用 ， 一 旦 到 达 结 束 节点 ， 按 序 和 迭代 调用 
必须 结束 。 这 样 的 结束 可 以 通过 使 用 快 栈 解除 技术 在 一 个 时 钟 周期 内 完成 。 而 且 ， 
递归 调用 结束 时 ， 代 码 行 如 下 : 

if pop='1' then stack pointer <= stack pointer — 1; 

重复 执行 ， 直 到 stack pointer 接收 到 递归 调用 顺序 开始 时 的 赋值 。 重 复 执行 代 
码 行 stack_pointer < = stack. pointer - 1; 需要 多 个 时 钟 周期 。 为 了 消除 元 余 周 期 ， 
上 述 代 码 修改 如 下 : 

if pop='1' then stack pointer <= stack pointer — unwinding; 

其 中 信号 unwinding 计算 如 下 : 

unwinding <= stack_pointer - saved_sp + 1; 

赋值 saved_sp < stack. pointer 在 模块 首次 调用 时 完成 。 因 此 ， 可 以 避免 层次 
返回 的 元 余 时 钟 周期 。 


5.8 实际 应 用 


本 节 关 于 实际 应 用 ， 其 中 可 以 高 效 使 用 HFSM 和 PHFSM。 开 始 时 ， 这 样 的 应 
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用 需要 穿越 人 W 元 树 ( 见 3.4.3 节 和 本 章 参 考 文献 【32 ] ) 。 考 虑 图 3. 12 中 的 人 元 树 
(N =4) 。 该 树 可 以 存储 按 给 定 关系 连接 的 数据 。 例 如 ， 图 5. 22 中 的 树 存 有 如 下 
整数 集 : 60, 12, 31, 56, 0, 9, 63, 28, 6, 1, 58, 15, 2, 62, 48, 49, 7, 
29, 50, 5, 3, 30, 59, 23, 。 将 这 些 整数 的 二 进 制 代码 分 解 为 C 位 一 组 (G 22); 
11 1100, 00 1100, 01 1111, 11 1000, 00 0000, 00 1001, 7 1111, 01 1100, 000110, 
00 0001, 11 1010, 00 1111, 000010, 77 1110, 770000, 17 0001, 000111, 01 1101, 
11 0010, 000101, 000011, 01 1110, 27 1011, 01 0111。 左边 的 第 一 组 用 和 斜体 表现 。 
使 用 这 组 指定 根 节点 的 三 个 子 节点 ， 找 到 所 有 的 代码 为 00、01 RETI, 分 别 指向 三 
个 子 节点 b、e 和 d。 现 在 节点 b、e 和 d 可 以 认为 是 子 树 的 根 节点 ， 子 树 采 用 相同 
的 规则 。 最 后 一 组 的 数据 不 为 新 的 树 节 点 扩展 ， 但 与 深度 为 2 的 叶 关 联 ( 叶 有 e, 
f, g, h,i, j, k, 1, m)。 这 样 的 树 可 以 轻松 建立 ， 可 以 采用 和 迭代 或 递归 过 程 遍 
历 !32] 。 连 接 到 叶 的 数据 是 有 序 的 (最 左边 的 叶 具 有 最 小 值 ， 最 右边 的 叶 具 有 最 大 
值 ) 。 因 此 ， 树 可 用 于 数据 排序 ， 或 者 寻找 特定 数据 。 例 如 ， 检 查 数据 28 是 否 在 
数据 集中 ， 可 以 进行 三 个 测试 ， 一 个 用 于 树 根 ， 其 他 用 于 节点 e 和 j ( 见 图 $.22 中 
的 下 划 线 代码 ) 。 





图 5.22 图 3.12 的 N 元 树 (N=4) 现 可 用 于 数据 排序 
在 众多 的 实际 应 用 中 都 涉及 N 元 树 ( 如 本 章 参 考 文献 [32] ) ， 将 通过 应 用 两 
类 模块 用 它们 排序 数据 : 中 遍历 树 使 所 有 叶 被 找到 ; @@ 最 快 排序 与 叶 相 关 的 数据 。 
第 一 个 模块 有 两 个 可 用 执行 ， 即 迭代 和 递归 。 第 二 个 模块 执行 顺序 GEER) 操 
作 ， 涉 及 上 文 提 及 的 可 重复 使 用 的 排序 网 络 ( 见 3.5 节 )。 
假定 已 经 建立 用 于 排序 数据 的 W 元 树 ， 且 需要 从 树 中 提取 已 排序 的 数据 。 以 
下 和 迭代 C 函数 用 于 提取 已 排序 数据 : 
void traverse_tree(treenode* root, int depth) 
depth++; 
if (root == 0) { depth--; return; } 
if (depth == max depth)[ ^ sort_and_print_leaf_data(root); depth--; return; } 
for (int i = 0; i < N; i++) 
traverse tree(root-»node[i], depth); ^ -- recursive call 
depth--; 


其 中 treenode 是 以 下 C 结构 (N 是 常量 NN): 
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struct treenode { 
int* arrayTOsort; 
int count; 
treenode* node[N]; 和 


和 迭代 函数 void iterative traverse tree (treenode * root, int depth) 可 以 类 似 建立 ， 
其 中 treenode 结构 具有 额外 的 域 ， 这 个 域 具有 指向 树 的 父 节点 的 指针 。 

使 用 前 文 讲述 过 的 方法 和 工具 ， 函 数 traverse_tree 和 iterative. traverse tree 可 以 
转换 为 硬件 电路 。 树 的 不 同 分 支 (如 具有 局 部 根 b、e Ald 的 分 支 ) 可 以 并 行 遍 
Ti, Wt, 765.4 节 讲 述 的 PHFSM 可 以 直接 应 用 ， 人 允许 不 同 模块 并 行 执行 。 通 过 
把 子 树 存在 不 同 存储 模块 中 ， 避 免 了 模块 之 间 最 后 数据 的 依赖 性 。 任 何 模块 也 允许 
创建 管道 线 。 例 如 ， 上 述 C 代码 中 的 函数 sort and. print leaf data (root) ; ， 排 序 与 
叶 关 联 的 数据 。 图 5. 23 所 示 为 在 HFSM 模块 中 执行 的 管道 线 。 


数据 与 叶 相 关 
© 






一 旦 数据 准备 好 就 从 不 同 叶 中 转换 
图 5.23 HFSM 模块 控制 的 管道 线 


一 旦 函数 traverse_tree 找到 具有 最 小 值 的 子 集 (如 图 5.22 中 的 节点 e) ， 所 有 
数据 便 传输 到 图 5. 23 中 最 右边 的 管道 线 寄 存 器 的 输入 ( 见 中 ) 。 在 下 一 次 迭代 中 ， 
传输 后 续 子 集 ( 如 图 5. 22 中 的 节点 D, ， 具 有 第 一 个 子 集 的 操作 结果 存在 下 一 个 管 
道 线 寄存 器 ， 如 图 5.23 ras (WM) 。 后 续 和 迭代 相似 执行 。 管 道 线 寄 存 器 之 间 的 
操作 的 例子 如 图 3. 15 所 示 。 

任何 HFSM 模块 都 有 统一 化 接口 。 但 是 ， 模 块 的 执行 可 能 不 同 。 例 如 ， 递 归 函 
数 traverse. tree. (treenode * root, int depth) 可 以 轻松 地 用 壕 代 函数 iterative_traverse 
_tree (treenode * root, int depth) 替代 。 对 于 实验 和 比较 ， 这 个 技术 是 必 不 可 少 
的 。 注 意 ，HFSM 执行 遍历 二 进 制 树 的 完整 可 综合 的 VHDL 代码 可 以 在 本 章 参 考 文 
Bk [5] 中 找到 。 

第 二 个 例子 取 自 组 合 查找 的 范围 。 假 定 需要 找到 给 定 二 进 制 矩阵 的 最 小 行 覆 
盖 ， 即 最 小 的 行 数 ， 这 样 在 行列 交点 处 ， 它 们 在 每 列 中 最 少 具 有 一 个 值 “1”。 大 
致 算法 ' 引 允许 解决 这 类 问题 ,需要 以 下 步 又 顺序 ， 如 图 5. 24a 所 示 : 

1) 发 现 矩阵 列 Cwi,， 具 有 最 小 汉 明 权重 Ns。 (如果 NI, =0， 则 覆盖 不 存 
E); 

2) 发 现行 Ru， 在 列 Cu 中 具有 值 “1”， 具 有 最 大 汉 明 权重 Ni 
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3) 方案 包括 行 Ru ， 移 除 这 行 和 所 有 的 列 ， 这 样 REB “1”; 
4) 重复 步骤 1) ~3)， 直 到 矩阵 为 空 ， 或 者 存在 只 有 0 的 列 ， 这 意味 着 方案 不 
存在 。 





Zo 


















































发 现 矩 阵列 Cmin 具有 最 
少数 量 Nmin 2 
<a 
aa 结束 
发 现行 Rmax ,在 列 Cmn 中 具有 1， z 
= 2 Pare ees eat 
具有 最 多 数量 Nimax 个 1 1 0 1 | 1 — iY 
| 1000 0 44 
POR OD OO 
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图 5.24 a) 近似 矩阵 遍历 算法 b) 迭代 算法 应 用 到 给 定 二 进 制 矩阵 


图 $. 24b 所 示 为 本 章 参考 文献 [1] 中 的 例子 ， 即 特定 矩阵 采用 了 图 5. 24a 中 
的 步 又。 这些 步骤 在 相应 的 HFSM 模块 中 实现 ， 具 有 3.7 节 -3.9 节 中 的 快速 并 行 
计算 。 主 模块 zo 调用 模块 za ，z 和 zz。 模 块 z，( 见 图 5.24a) 执行 步骤 1， 输 出 值 
Na 和 Cn。 模块 2 ( 见 图 5.24a) SER. Ez, 更 新 掩 码 ， 掩 码 用 于 指明 已 
经 移 除 的 行 和 列 ( 见 图 5.24a) ， 因 此 ， 为 后 续 步 又 取出 被 扼 (被 移 除 ) 矩阵。 一 
直 重 复 上 述 步骤 ， 直 到 找到 覆盖 ， 或 者 直到 得 出 方案 不 存在 的 结论 。 

显然 ， 所 有 这 样 的 步骤 可 以 轻松 在 通用 处 理 器 中 执行 ， 通 常 ， 操 作 明显 比 
FPGA 的 时 钟 频率 高 。 但 是 ， 基 于 FPGA (和 基于 HFSM) 的 执行 可 能 有 以 下 一 些 
优势 : 

(1) 可 以 轻松 执行 非常 快 的 并 行 计算 ( 如 计算 汉 明 权重 时 需要 )， 且 没有 通信 
开销 ， 通 常 当 基于 处 理 器 的 执行 涉及 相似 的 加 速 器 时 具有 通信 开销 。 

(2) 并 行 操作 可 行 。 例 如 ， 对 于 所 有 的 矩阵 列 都 可 以 找到 汉 明 权重 (保留 在 
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并 行进 入 的 FPGA 寄存 器 中 ) 和 Ni;;， 可 在 图 3. 16 描述 的 电路 的 组 合 进程 中 找到 
( 见 3.6 节 ) 。 尤 其 是 ， 上 述 步 又 1) 和 2) 能 够 在 一 个 时 钟 周 期 内 完成 。 

(3) 支持 组 合 查找 的 快 硬件 器 件 可 以 创建 为 在 相同 FPGA 中 执行 的 复杂 系统 
的 一 部 分 。 

HFSM 的 最 后 一 个 例子 关于 管道 线 ， 管 道 线 寄 存 器 之 间 的 操作 顺序 执行 ， 需 要 
多 个 时 钟 周期 。 而 且 , 图 5.23 中 的 任何 操作 (LOMB) 都 可 以 组 合 或 顺序 执 
行 。 组 合 操作 不 使 用 顺序 控制 电路 ， 但 是 它们 可 能 具有 过 度 传播 延 时 。 对 于 具体 应 
用 (如 3.5 节 和 3.6 节 讨 论 的 ) ， 顺 序 操作 以 高 时 钟 频 率 执行 ， 可 能 更 好 ， 因 为 它 
们 使 资源 消耗 明显 减少 ， 且 可 以 达到 要 求 的 性 能 ， 与 已 完成 的 系统 的 其 他 性 能 相互 
调整 ， 比 如 通信 开销 。HFSM 可 以 用 于 控制 管道 线 ， 管 道 线 寄存 器 之 间 顺 序 操作 ， 
每 个 特定 的 操作 由 相关 的 HGS 描述 。 图 5.25 所 示 为 一 些 操作 的 例子 ( 见 @ 和 @®@) 。 
例如 ， 操 作 A 是 迁 代 排序 ， 可 能 被 图 5. Sa 和 b 中 的 HCS 控制 。 操 作 B 的 可 行 类 型 
如 图 5. 25 所 示 。 













HFSM 模 块 操作 控制 管道 线 





管道 线 寄 
存 器 之 间 [= > 


的 操作 


过 滤 ( 移 除 所 有 高 
于 上 界 和 低 于 下 界 
的 数据 ) 


计算 最 频繁 的 数据 
迭代 网 络 


相 邻 数据 比较 ， 并 寻找 
结果 向 量 的 汉 明 权 值 ， 
找到 重复 数据 的 数量 


迭代 排序 ( 见 图 5.8a,5.8b,5.8c) 


图 5.25 管道 线 寄存 器 之 间 的 时 序 操作 实例 


考虑 图 5.26 中 的 特定 例子 ,使 两 个 子 集 〈 每 个 子 集 由 N 个 数据 组 成 ) 在 管道 
线 中 排序 ， 每 个 管道 线 阶段 〈 步 ) 需要 大 约 N/2 个 时 钟 周 期 ， 且 只 在 高 频 起 作用 。 
而 且 ， 最 终 的 集 (2N 个 数据 ) 只 具有 不 重复 的 正 值 。 

图 5. 26a 中 有 介 于 管道 线 寄 存 器 之 间 的 三 个 模块 。 第 一 个 模块 检验 左边 模块 输 
出 数据 的 可 用 性 (指定 为 SOURCE)， 执 行 模块 5 ， 并 行 激活 两 个 迭代 排序 器 (每 
个 排序 器 N 个 数据 ) ， 如 图 5. 8c 所 示 (也 可 见 图 5.25)。 这 样 的 操作 最 多 需要 N/2 
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个 时 钟 周 期 和 组 合 通路 延 时 ， 组 合 通路 延 时 等 于 两 个 比较 器 的 延 时 。 为 了 简单 ， 假 
EAS. 26b 中 没有 输入 数据 ， 则 前 面 记录 的 数据 必须 首先 排序 ， 只 有 排序 之 后 才 可 
能 出 现 指明 新 数据 可 用 的 新 信号 。 容 易 避 免 前 提 条 件 ， 但 是 图 5. 26b 中 的 HGS 会 
变 得 更 加 复杂 。 第 二 个 模块 z, 移 除 所 有 的 重复 数据 。 它 完成 如 下 : 中 邻近 数据 比 
Be ( 见 图 3.33) 和 查找 结果 向 量 的 汉 明 权重 ,发 现 重复 数据 的 次 数 ; QM AE AA E 
复数 据 集 中 保留 一 个 值 ; @ 在 第 3 章 的 电路 的 帮助 下 重新 排序 。 因 为 操作 四 和 人 @) 可 
以 组 合 完成 ， 所 以 需要 的 时 钟 周期 最 多 为 N/2 个 。 最 后 一 个 模块 z 在 两 个 已 排序 
子 集中 交换 数据 ， 正 如 图 5. 26c 使 用 的 方法 '34] ， 然 后 重新 排序 两 个 具有 N 个 数据 
的 集 ， 给 出 最 终 已 排序 的 集 ， 具 有 2N 个 数据 。 注 意 本 章 参考 文献 [34] 的 网 络 也 
在 本 章 参 考 文 献 [35] 中 描述 过 ,还 有 其 他 的 细节 ， 尤 其 是 证 明 这 里 考虑 的 方法 
是 正确 的 。 很 容易 证 明 这 样 的 操作 也 需要 不 超过 N/2 个 时 钟 周期 。 最 后 ，2N 个 已 
排序 的 数据 传输 到 模块 ， 图 5. 26a 中 指定 为 DESTINATION 。 图 5. 26c 所 示 为 关于 2 
个 具有 4 个 数据 集 的 简单 例子 ， 如 下 : 7，3，9，3 和 2，8，2，1。 注 意 不 必要 的 0 
可 以 丢弃 。 或 者 ， 模 块 z, 可 以 明确 指明 最 终 集中 数据 的 数量 。 

在 不 超过 N/2 个 时 钟 周期 之 后 执行 管道 线 寄 存 器 之 间 的 数据 传输 ， 这 上 比 图 
3. 14 中 的 电路 需要 的 2N/2 个 时 钟 周 期 快 ， 假 设 这 个 电路 直接 用 于 排序 2N 个 数据 。 
因此 ， 对 于 2N 个 数据 ， 图 5. 26 所 示 管 道 线 执行 更 快 (因子 大 约 为 2)， 因 为 图 
3. 14 中 的 电路 虽然 使 用 类 似 的 管道 线 ， 但 只 用 一 个 模块 控制 电路 ， 而 不 是 3 个 模 
Hu, 225 230 
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注意 ,许多 其 他 的 例子 可 在 本 章 参考 文献 [1, 5, 36] 中 找到 。 

已 知 HFSM 可 以 静态 或 者 动态 配置 。 在 最 后 一 种 情况 下 ，HFSM 的 行为 可 以 在 
运行 时 改变 。 本 章 参 考 文献 [37] 的 方法 可 以 应 用 于 这 样 的 目的 ， 它 们 允许 HFSM 
电路 从 可 重复 载 人 的 存储 器 中 建立 ， 决 定理 想 的 功能 。 存 储 器 〈 肉 人 式 或 分 布 式 
FPGA 模块 ) 在 执行 期 间 可 重复 载 人 ， 因 此 HFSM 的 操作 可 根据 请 求 改 变 ， 这 些 请 
求 与 实际 因素 相关 〈 如 天 气 条 件 、 周 围 环境 、 单元 错误 等 ) 。 因 为 HESM 由 模块 组 
成 ， 所 以 如 果 有 需要 则 这 些 模块 可 以 被 蔡 代 。 为 了 调整 被 控 设 备 的 参数 ， 模 块 明确 
的 不 同 控制 算法 可 在 执行 期 间 选 择 。 图 5.27 所 示 为 一 个 可 行 的 方法 ， 使 外 部 设备 
的 智能 控制 在 APSoC 执行 ，APSoC 在 4.5 节 讨 论 过 。HFSM 由 不 同 模块 组 成 ， 旨 在 
控制 外 部 设备 即 被 控 设备 ) ， 一 些 模块 执行 蔡 代 算法 或 者 竞争 算法 。 因 为 可 以 采 
用 策略 “尝试 、 测 试 和 替代 〈 如 果 需 要 的 话 )”。 并 且 任 何 模块 可 以 用 升级 版 更 新 ， 
且 不 用 调整 周围 模块 。 并 且 足 够 改变 相关 微 操 作 (z;)， 该 微 操作 指明 具有 新 的 微 
操作 (2) 的 模块 的 人 口 点 ， aiii ERE 个 (备用) 模块 (从 集 1， 
2， G) BLA LI A. 图 " 

5. 271 所 示 为 潜在 的 智能 控制 。 
PS ( 见 4.5 节 ) 评估 被 控 设 
备 的 功能 ， 检 查 是 否 满足 要 
求 。 如 果 从 评估 结果 来 看 ， 















中 功能 评估 


人 @ 更 新 或 重 














PS 得 出 应 用 到 被 控 设备 的 方 |。 新 本 入 模 岂 | 一 一 as 
法 和 算法 可 以 升级 的 结论 ， 
则 在 PL 执行 的 激活 模块 可 以 ”一 > pr 


更 新 , 一 些 这 样 的 模块 使 用 
本 章 参 考 文献 [37] 中 的 方 
法 重新 配置 。 更 新 意味 着 当前 激活 模块 可 以 被 当前 闲置 模块 替代 ， 期 待 更 高 效 的 使 
用 。 重 新 配置 意味 着 通过 重新 载 人 其 存储 器 改变 被 选择 模块 的 功能 。 

上 述 的 一 些 应 用 对 于 不 同 要求 ， 智 能 系统 可 以 做 到 更 好 。 而 且 HFSM 可 以 实现 
高 速 控制 ， 也 可 能 有 利于 实际 案例 。 
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第 二 部 分 
基于 FPGA 电路 和 
系统 的 有 限 状 态 
机 的 优化 方法 


ETE : 
Moore FSM 逻辑 电路 的 硬件 减少 


摘要 一 一 本 章 主要 解决 在 FPGA 中 执行 Moore FSM 逻辑 电路 的 优化 问题 。 并 给 
出 功能 解体 和 结构 解体 方法 的 一 般 特 点 。 分 析 FPGA 的 独特 特征 ， 可 以 减少 Moore 
FSM 逻辑 电路 LUT 的 数量 。Moore FSM 优化 方法 的 分 类 包括 四 状态 代码 转换 为 伪 
等 状态 (Pseudoequivalent State, PES) 类 代码 ; @ 状 态 代 码 显 示 为 PES 代码 的 并 置 
和 微 操作 集 ; @ 其 他 变量 替代 逻辑 条 件 (FSM 的 输入 变量 ) 。 所 有 讨论 的 方法 均 用 
例子 说 明 。 本 章 由 作者 和 博士 生 Olena Hebda (波兰 绿 山城 大 学 ) 一 起 编写 。 


6.1 现 有 方法 的 一 般 特 点 


执行 控制 单元 逻辑 电路 的 一 个 主要 问题 是 硬件 减少 问题 0” 。 解 决 方法 是 减少 


























FSM 逻辑 电路 占用 的 芯片 区 域 。 该 解决 | 

方法 的 积极 作用 是 性 能 变 佳 ， 逻 辑 电路 BIMF 7— RG |-T mo H 
的 功 耗 减少 3 -5 。 如 果 使 用 的 逻辑 器 件 | 开始 ll 

的 传播 时 间 没有 减少 ， 则 性 能 增加 是 可 ie 





能 的 ， 只 需要 在 控制 单元 的 组 合 部 分 减 
^x EU. Moore FSM 的 结构 关系 
图 具有 两 个 组 合 模块 和 1 af Fe ae RC, 
如 图 6. 1 rz 。 

输入 存储 函数 模块 (Block of Input Memory Function, BIMF) 执行 函数 D, e $, 
其 中 输入 存储 系统 的 表达 式 为 


图 6.1 Moore FSM 的 结构 图 


b=P(T,X) (6.1) 
通常 ，B = | Di,，…，Dr| ， 因 为 寄存 器 RG 使 用 D 触发 器 执行 "1 。 寄 存 器 中 
最 小 位 数 由 如 下 方程 式 决定 : R = log, M。 微 操作 模块 (Block of Microoperation, 
BMO) 产生 函数 y e Y， 其 中 微 操 作 系 统 的 表达 式 为 
y= ¥( TY (6.2) 
为 了 紧凑 ,命名 硬件 减少 的 方法 为 优化 方法 。 对 于 Moore FSM， 存 在 的 优化 方 
法 可 以 分 为 普通 和 特殊 两 种 。 普 通 方法 适用 于 任意 逻辑 器 件 执行 的 FSM 的 优化 ， 
以 及 任意 GSA。 这 个 组 包括 FSM 的 功能 解体 和 结构 解体 。 
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功能 解体 基于 香农 展开 式 "1 。 考 虑 如 下 例子 ， 为 如 下 函数 建立 逻辑 电路 ; 
y, 2 abcd V abcdVabed Vabcd, ^ LUT #3 HHA (S823) 可 以 用 于 执行 电路 。 
将 函数 写成 以 下 形式 : Aa f LL 

y, 2a( bcd V b cd) Va( bed V bed) (6.3) 

根据 式 (6.3), 3 Ar LUT 执行 电路 是 足够 的 。 结 果 电 路 有 两 层 ， 如 图 6.2 
所 示 。 

TRH, BHAE LUTI 执行 函数 B= bed s nle ， 
Vbed, mi LUT2 执行 函数 C - bed V bed, MERE “一 a Swe | 
用 解体 ， 则 式 〈6 1) 中 的 每 个 项 使 用 两 片 LT Bh 。 
行 。 执 行 这 些 项 的 析 取 ， 使 用 的 两 片 LUT 都 是 S=3 o LU m 
个 输入 的 。 因 此 ， 没 有 解体 的 结果 电路 需要 十 片 
LUT， 有 四 层 。 图 6.2 函数 yi 的 逻辑 电路 

功能 解体 用 NAND 门 执行 逻辑 电路 0 。 接 下 来 ， 功 能 解体 应 用 于 FPGA 芯片 
上 执行 的 FSM 电路: 。 过 去 ， 功 能 解体 广泛 应 用 于 CPLD 芯片 上 执行 的 FSM 电 
BROS -271 。 如 果 功 能 解体 使 用 布尔 函数 因子 表现 FSM rn pU, ， 则 逻辑 器 件 的 数量 
会 减少 ; 因 式 分 解 假定 使 用 式 (6.1) 所 示 系 统 的 不 同 函 数 的 连词 。 

结构 解体 基于 在 FSM 逻辑 电路 中 增加 结构 水 平 的 数量 [1 。 结 构 解 体 的 方法 
如 下 : 

1) 替换 逻辑 条 件 ; 

2) 微 操 作 集 的 解码 ; 

3) 兼容 微 操 作 域 的 解码 ; 

4) 目标 转换 。 

这 些 方法 的 主要 思想 如 下 : 

(1) 替换 逻辑 条 件 。 这 个 方法 的 目的 是 减少 FSM 输入 存储 函数 中 的 参数 数量 。 
4 L, =1X(a,)1, FLA X(a,,) CX 是 退 辑 条 件 集 ， 决 定 状 态 an CA 的 转换 。 用 条 
件 变量 已 =1pP e. pe) BRR X, HF G=max(L,, se, Ly). mM Moore FSM 
( 见 图 6.1) 为 PY Moore FSM。 用 符号 P 指 代 BIMF 的 存在 性 ， 而 了 指 代 BMO 的 存 
在 性 。 逻 辑 条 件 的 蔡 换 导 致 MPY Moore FSM, WE 6. 3 所 示 。 
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图 6.3 MPY Moore FSM 的 结构 图 
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在 MPY Moore FSM F, RAFIR (Block of Logic Condition, BLC) 执行 以 
下 函数 系统 : 





PzPCTIE) (6.4) 

BIMF 执行 函数 

@=(T,P) (6.5) 

BMO 仍然 执行 函数 式 〈6.2) 。 如 果 满 足 条 件 C << 工 ， 则 可 以 采用 这 个 方法 。 
如 此 , 式 (6.4) 所 示 系 统 的 参数 数量 明显 减少 ， 对 比 式 (6.1) 所 示 系 统 。 正 如 
本 章 参考 文献 [19] 中 研究 结果 证 明 的 那样 ， 在 相应 组 合 电路 中 ， 参 数 数量 的 减 
少 会 导致 LUT 器 件数 量 减 少 。 

(2) 微 操 作 集 的 解码 。 这 个 方法 的 目的 是 减少 BMO 中 的 硬件 。 令 微 操作 集 Q 
(Collection of Microoperation, CMO) Y, CY 替代 GSA 的 顶点 算 子 。 用 二 进 制 代 码 天 
(Y,) 解码 CMO Y, CY, K(Y,) RA Ro 个 位 

Ro = log, Q (6.6) 

使 用 变量 z, eZ 解码 集 Y, CY, HP | ZI -Ro, WE, WEER Y ASR 

示 为 
Y -Y(Z) (6.7) 

如 果 条 件 Ro <R BA, WA (6.7) 所 示 系 统 生成 比 式 (6.2) 所 示 系 统 占用 
更 少 逻 辑 器 件 的 电路 。 

(3) 兼容 微 操 作 域 的 解码 。 这 个 方法 的 目的 也 是 BMO 的 优化 。 微 操作 yis y; 
eY 是 可 兼容 的 ， 前 提 是 它们 不 属于 相同 的 微 操作 集 Y, EY(g =1,0)。 通 过 兼容 微 
操作 Y! YS 的 分 类 划分 集 了 ,划分 条 件 如 下 : 

YNY, =O (næm, mm e {1,--,K}) 
Fi Fs (6.8) 
zg (k =1,K) 

SINI =N, (=1，K) 。 用 二 进 制 代码 Kr) AR, = log CN, +1) f, ft 
码 微 操作 y, c Yo RUE, Rp 个 变量 = e Z 用 于 解码 微 操作 .y, e Y， 其 中 Rp 的 值 由 
以 下 方程 式 确定 : 


K 
Ry = YR (6.9) 
=1 


(4) 目标 转换 。 前 面 讨论 的 方法 都 不 能 直接 应 用 到 Moore FSM， 它 们 只 能 和 目 - 
标 转换 一 起 使 用 [20 7731, Moore FSM 中 有 两 个 不 同 的 目标 ， 即 状态 和 微 操作 集 。 状 
态 代 码 转换 到 具有 后 续集 解码 的 微 操作 集会 生成 PAY Moore FSM。 状 态 代 码 转换 到 
具有 后 续 兼 容 微 操 作 域 解码 的 微 操 作 集 会 生成 PAD Moore FSM。 这 两 个 方法 具有 相 
同 的 结构 图 ， 如 图 6. 4 所 示 。 

结构 图 包括 状态 转换 模块 (Block of State Transformation, BST), 产生 以 下 
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图 6.4 PAY 和 PD Moore FSM 的 结构 图 


函数 : 
ZaZCP) (6. 10) 

xX (6.10) 作为 式 (6.7) 所 示 系 统 的 参数 ， 由 BMO 执行 。 目 标 转换 有 其 他 
的 方法 ， 将 在 本 章 进 一 步 介绍 。 

结构 解体 的 方法 与 逻辑 电路 各 种 各 样 的 执行 思想 相关 。 如 此 ， 不 同 逻 辑 器 
件 用 于 执行 FSM 电路 的 不 同 结构 部 分 。 例 如 ， 器 件 如 NAND [], 或 者 PAL ZZ 28 
胞 , 或 LUT 器 件 ， 用 于 执行 BIMF 电路 。 多 路 复 用 器 用 于 执行 BLC。 解 码 器 用 于 执 
行 PAD Moore FSM 的 BMO 电路 。 显 然 ， 多 路 复 用 器 和 解码 器 的 电路 使 用 逻辑 器 件 
执行 。 但 是 ， 多 路 复 用 器 和 解码 器 是 任何 工业 CAD 工具 的 库 器 件 ， 目 标 为 CPLD 
或 者 FPGA 芯片 。 应 用 复杂 的 库 器 件 (不 是 LUT 或 PAL) 简化 设计 进程 。 

系统 Y(T)，2Z(7T) 和 Y(2Z) 的 布尔 函数 确定 为 多 于 50% 的 可 能 输入 赋值 。 使 用 
存储 模块 (RAM，PROM) 执行 这 样 的 函数 是 合理 的 。 已 知 单个 存储 细胞 蔡 代 至 少 
一 个 逻辑 器 件 。 鉴 于 此 ， 存 储 模块 的 应 用 会 导致 硬件 数量 明显 减少 。 

讨论 的 方法 可 以 同时 应 用 。 例 如 ， 逻辑 条 件 蔡 代 的 相互 应 用 ， 目 标 转换 和 
CMO 的 解码 ， 生 成 MPY Moore FSM， 如 图 6. 5 所 示 。 为 了 最 小 化 电路 ， 可 以 使 用 
式 (6.5) 的 功能 解体 。 














6.5 ‘MPY Moore FSM 的 结构 图 


结构 级 数量 的 增加 会 导致 传播 时 间 增加 。 但 是 有 积极 作用 ， 即 BIMF 3E 
_ 辑 电路 的 逻辑 器 件 的 层 数 减少 ， 是 可 能 的 。 这 可 以 补偿 前 面 提 到 的 消极 影响 。 
特殊 优化 方法 基于 考虑 其 他 特点 : 中 使 用 的 逻辑 器 件 ; 执行 结果 FSM 的 控 
制 算法 ; CGOFSM 模型 。 下 文 将 讨论 这 些 特 点 的 使 用 。 
(1) 使 用 逻辑 器 件 的 特点 。PAL 宏 细 胞 的 特点 是 输入 数量 明显 很 多 (达到 
30) 和 乘积 项 q 很 小 (大 约 为 8)。 第 一 个 特点 允许 使 用 多 个 伪 等 状态 分 类 的 资 
Jg 5.7.5), ， 导 致 BIMF 中 的 硬件 减少 。 第 二 个 特点 将 导致 单个 输入 存储 函数 b 的 
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最 小 化 '*'”] 。 对 于 最 小 化 ， 它 足够 找到 这 样 的 变量 ， 即 对 于 任何 函数 D, e , & 
个 积 之 和 (Sum of Product, SOP) 形式 不 多 于 q M, 

FPGA 芯片 的 主要 特点 是 存在 异 构 基 础 ， 包 括 查 找 表 器 件 和 向 入 存储 模块 。 现 
IÈ LUT A S<8 个 输入 。 单 个 LUT 可 能 执行 任意 布尔 函数 的 真 值 表 ， 参 数 不 超 过 S 
个 。 为 了 优化 LUT 执行 的 组 合 电 路 , 减少 参数 数量 是 必要 的 ,减少 执行 的 布尔 也 
数 乘积 项 的 数量 也 是 必要 的 2 。 

谍 入 存储 模块 用 于 执行 布尔 函数 系统 ， 布 尔 函 数 为 多 于 5096 的 可 能 输入 明确 
赋值 。 因 此 ， 使 用 EMB 执行 BMO 逻辑 电路 是 合理 的 [2 二 EMB 的 特点 是 其 可 重 
新 配置 5] ， 假 定 在 模块 的 常量 大 小 下 改变 地 址 输入 5S、 和 细胞 输出 tr 的 数量 。 输 出 
tr 的 数量 不 能 为 任意 值 ; 它 属于 某 个 固定 集 S(te)。 对 于 现代 FPGA, S (tp) ={1, 
2, 4, 8, 18, 36, 721 P! EMB 的 数量 (细胞 的 数量 ) 决定 为 

Vo 2 (6.11) 
因为 对 于 给 定 的 FPGA 45r, Vo 的 值 是 常量 ， 所 以 参数 SA 的 值 减 1, Sek 
EMB 的 输出 数量 加 倍 。 
如 今 ，FPGA 用 于 =16k (位 ) 口 。 这 些 EMB 有 如 下 配置 : 16k x1，8k x2， 
4k x4, 2k x8, Ik x16, 512 x36 和 256 x 72 位 。 以 下 表达 式 可 用 于 确定 PY Moore 
FSM 执行 BMO 电路 的 EMB 的 输出 tee ACRE: 
trr = Vo/M (6. 12) 
假定 PY MEER PY 模型 会 减少 BMO 电路 存储 模块 的 数量 [5 。 如 此 ，EMB 
的 输出 tto 的 数量 确定 为 








tgo = Vo/R (6. 13) 
但 是 如 果 以 下 条 件 : 
trr >N (6.14) 
发 生 ， 则 PY 和 PY FSM 使 用 的 EMB 的 数量 相等 。 在 这 两 种 情况 下 ， 只 需要 一 片 
EMB。 因 此 ， 使 用 微 操 作 集 解码 会 导致 性 能 变 差 ， 且 没有 硬件 减少 。 这 意味 着 这 样 
的 EMB 特点 ， 作 为 固定 输出 的 存在 ， 被 拒绝 采用 是 合理 的 。 
PY Moore FSM 的 模块 BMO 可 表示 为 有 MxN 位 的 表 。 男 一 方面 ， 模 块 EMB 
可 以 表示 为 有 24 xi, = Vo 位 的 表 ， 如 图 6.6 所 示 。 从 图 6.6 可 以 看 出 ， 在 EMB 
中 很 可 能 存在 免费 (未 使 用 的 ) 资源 ; 要 么 是 细胞 ， 要么 是 输出 ， 要 么 两 者 都 是 。 
这 些 免费 资源 确定 为 AM 2^ -M (对 于 细胞 ) 和 Al = -N (对 于 输出 )。 它们 
可 用 于 减少 BIMF 逻辑 电路 中 LUT 的 数量 。 
(2) 使 用 控制 算法 的 特点 。 如 本 章 参考 文献 [9] 所 示 ， 用 计数 器 CT EHÁUS 
存 器 RG 是 可 行 的 。 如 果 初 始 CSA 包括 不 少 于 75% 的 顶点 算 子 ， 则 这 样 是 有 意义 
的 。 因 此 命名 为 组 合 微 程序 控制 单元 (Compositional Microprogram Control Unit, 


235 
| 





e 基于 FPGA 的 系统 优化 与 综合 


CMCU) ， 在 本 章 参 考 文献 [29] 中 讨论 过 。CMCU 可 以 视 为 Moore FSM， 因 为 它们 
的 输出 由 式 (6.2) 所 示 系 统 表示 。CMCU 的 逻辑 综合 基于 构造 算 子 线性 链 ( Oper- 
ator Linear Chain, OLC), OLC 代表 顶点 算 子 的 某 个 顺序 。 

这 个 想法 可 以 通过 引入 顶点 条 件 发 展 为 0LCL301 。 这 个 方法 产生 Moore PerY 
Moore FSM， 如 图 6.7 所 示 。 讨 论 PorY Moore FSM 的 状态 赋值 规则 。 在 相同 的 OLC 
H, SRE an e 4 为 非 条 件 状态 <a,,，a, > 。 


1 
BMO 
N 
2^ 
{FR 


图 6.6 BMO fll EMB 的 特性 关系 图 6.7 PcrY Moore FSM 的 结构 图 














在 这 种 情况 下 ， 状 态 代码 由 以 下 表达 式 确定 : 
K(a,) =K(a,,) +1 (6. 15) 

为 了 管理 转换 式 (6. 15) ,产生 特定 变量 a ， 这 个 变量 用 于 增加 计数 器 CT 的 
内 容 。 

如 果 发 生 a, Sla, 的 条 件 转换 ， 且 条 件 式 (6.15) 也 发 生 ， 则 产生 变量 z。， 用 
于 增加 计数 器 CT 的 内 容 。 

如 果 对 于 某 个 转换 <an, a > ， 违 背 条 件 式 (6.15), Mz =z, =0。 在 这 种 情 
况 下 ， 下 一 状态 代码 由 函数 e 决定 。 这 个 方法 减少 结构 表 行 的 数量 ， 对 比 相等 PY 
FSM 的 这 个 值 。 针 对 CPLD 或 者 FFGA， 现 在 没有 PerY FSM 的 设计 方法 。 

(3) 使 用 FSM 模型 的 特点 。 有 两 类 Moore FSM 可 以 用 于 电路 优化 : DREZ 
E T, e 7 的 输出 函数 的 独立 性 ; @ 存 在 伪 等 状态 的 分 类 。 

第 一 类 允许 只 使 用 EMB 执行 BMO 的 逻辑 电路 。 如 果 特 定 FPGA 芯片 所 有 存在 
的 EMB 都 用 于 工程 ， 则 BMO 的 电路 使 用 LUT 执行 。 在 这 样 的 情况 下 ， 状 态 应 该 
以 这 种 方式 赋值 ， 即 导致 BMO 电路 中 LUT 数量 最 小 化 。 在 理想 情况 下 ,NN 片 LUT 
足够 执行 BMO 电路 。 这 种 情况 的 状态 分 配方 法 在 本 章 参考 文献 [31] 中 考虑 过 。 

第 二 类 减少 Moore FSM 结构 表 行 的 数量 到 相等 Mealy FSM Hx fü s 3 个 
主要 方法 可 以 达到 这 个 目的 : 四 最 佳 状态 赋值 ; @ 状 态 代 码 转 换 到 伪 等 状态 类 代 
码 ; @ 初 始 CSA 的 转换 。 本 章 讨论 第 二 种 方法 ， 另 两 种 方法 可 在 本 章 参考 文献 
[30] 中 找到 。 

Moore FSM 逻辑 电路 优化 方法 的 分 类 如 图 6. 8 所 示 。 这 些 方 法 可 同时 使 用 。 只 
有 同时 使 用 的 方法 可 以 使 电路 的 LUT 和 EMB 最 小 化 。 本 章 讨论 一 些 优化 方法 。 
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图 6.8 Moore FSM 逻辑 电路 的 分 类 优化 方法 


6.2 Moore FSM 中 的 目标 转换 


如 本 章 参考 文献 [8] 所 示 ， 最 佳 状态 解码 不 总 使 ST 行 的 数量 减少 到 Hy, H 
中 Ho 是 相等 Mealy FSM 的 ST 行 的 数量 。 这 样 的 情况 下 ， 用 伪 等 状态 类 代码 替代 状 
态 代码 是 合理 的 [9 。 

对 于 某 个 Moore FSM, GARE A 的 集 的 划分 处 耳 , = 1 81 ，…，Bj| 被 伪 等 状态 
找到 。 用 具有 以 下 数量 位 的 二 进 制 代 码 K (B) 解码 每 个 类 B; e TT, : 



































Ry = logy! (6. 16) 
使 用 变量 z e TRI B ceM, Æ x 
HITI =Rgo | PEN. E T 4 BMO Lo 
转换 状态 am e B; 代码 到 对 应 的 类 i "m 
B e II, 代码 。 做 这 样 的 转换 ， 需 要 包 

















括 代 码 转 换 模块 (Block of Code Trans- 
former, BCT) 到 Moore FSM。 提 出 的 方 图 6.9 PsY Moore FSM 的 结构 图 
法 产生 PpY Moore FSM， 如 图 6.9 所 示 。 
在 PpY Moore FSM HF, BIMF 和 BCT 执行 以 下 系统 函数 
o-d(t,X) (6. 17) 
T=T(T) (6. 18) 
比较 式 (6 2) 和 式 (6.18) 所 示 系 统 。 比 较 表明 这 些 系统 的 函数 有 相同 的 自 
然 特 性 。 函 数 T 和 YY 只 依赖 状态 变量 T, e 7。 因 此 ,使 用 EMB 执行 式 (6.2) 和 式 
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(6.18) 所 示 系 统 是 合理 的 。 
令 以 下 条 件 发 生 : 
trr ZN + Rpg (6.19) 
这 种 情况 下 ， 一 片 EMB 足以 执行 式 (6.2) 和 式 (6.18) 所 示 的 两 个 系统 。 
WR ten <N, WRIN (Y) 执行 BMO 逻辑 电路 是 必须 的 。 
N(Y) =N/tpr (6. 20) 
令 以 下 条 件 发 生 : 
N(Y) * trr - NZRg (6.21) 
这 种 情况 下 ,使 用 相同 的 EMB 执行 BCT， 作 为 BMO, lu 3b FF AR IX 
(6.20), ， 则 函数 T, sz 的 某 部 分 在 EMB 执行 ， 而 其 他 部 分 在 LUT 执行 。 对 标准 的 基 
准 问题 [531 的 分 析 表 明 ， 对 于 超大 量 的 实际 控制 算法 ， 条 件 式 (6. 19) 发 生 。 
寄存 器 RG 用 于 解释 目的 。 实 际 上 ，RG 触发 器 分 布 在 逻辑 电路 中 的 LUT 中 。 
如 果 LUT 器 件 执行 函数 D, s 丐 ， 则 其 输出 连接 到 触发 器 相应 的 宏 细 胞 。 因 此 ，PB7 
Moore FSM 的 实际 结构 图 如 图 6. 10 所 示 。 这 个 电路 ox 
只 有 两 级 。 对 于 PRY Moore FSM， 条 件 式 (6.21) 应 
该 发 生 。 在 图 6.10 中 ,模块 LUTer 代表 执行 式 
(6.17) 所 示 系 统 的 查找 表 器 件 集 ， 而 模块 EMBer 代 r 
表 执行 式 (6.2) MR (6.18) 所 示 系 统 的 嵌入 存储 610 用 FpAC RE 
模块 集 。 PY Moore FSM 
PY Moore FSM 的 综合 方法 具有 以 下 步骤 ; 
1) Moore FSM 的 状态 标记 初始 CSA 厂 ， 并 构建 状态 集 A; 
2) 找到 划分 处 II, = | B, SUUS B,| 3 
3) 解码 状态 am eA 和 类 B; e IT; 
4) 构建 减少 的 Moore FSM 结构 表 ; 
5) 构建 式 (6.17) 所 示 
系统 ; 
6) 构建 微 操作 模块 表 ; 
7) 构建 代码 转换 模块 表 ; 
8) 在 给 定 FPGA 芯片 上 执 
ÍT FSM 逻辑 电路 。 
讨论 Moore FSM P,Y( I, ) 
的 综合 例子 ， 其 中 部 分 (CD) 
意味 着 给 定 模 型 使 用 GSA D; 是 
"ZA dg. D. 算法 的 图 策略 如 
图 6. 11 所 示 。 
状态 a,, e 4 已 经 在 图 6. 11 图 6.11 P, 算法 的 图 策略 





Luter 上 二 EMBer |“ 
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给 出 了 。 因 此 ， 如 下 信息 是 关于 集 和 集 的 参数 ， 从 图 6.11 中 获得 : 4 = | al ，…， 
ag}, M=8; X-|m, "=; taj; Deas Yedyy, 7, Fil, N25, BR, R=3, 
T={T,, T, T], B={D,, D, D], GSAT, 的 分 析 人 允许 构建 划分 处 II, = 
|By, ^5, Bilo BC FIR: 1-4, Ry 22, AUPE = |T, nl. 

以 任意 方式 解码 状态 a,, e 4。 使 用 如 下 代码 : K(a,) 2000, K(a;) 2001, =, 
K(as) =111。 使 用 频率 准则 中 解码 类 B; e 这 种 情况 下 ， 类 具有 越 多 的 状 
态 ， 其 代码 就 具有 越 多 的 0。FSM PpY( 栈 | ) 的 情况 下 ， 有 类 Bl =la}, B, =la, 
az, a4, B,= a5, ag}, B, = 1a;, ag}. 使 用 频率 准则 产生 如 下 类 代码 :; K(B,) = 
11, K(B,) =00, K(B;) =01, K(B,) =10s 

为 了 构建 减少 结构 表 ， 有 必要 找到 广义 转换 公式 系统 509] 。 广 义 转换 公式 有 以 
下 形式 : 








H A A 
Bx V. X,a,(i = 1,7) (6. 22) 
TEX (6.22) 中 ,符号 H, 代表 任意 状态 an e B; 的 转换 数量 ， 符 号, 代表 输 
入 变量 x e X MEW, WEIR an e B; 到 下 一 状态 a, e 4 的 转换 。 在 PRY (I4) 
FSM 的 情况 下 ， 有 以 下 GFT: 


B,—»x,a; VX%IX203 V x, x34 





(6.23) 


B5—«x3x4a5 V x4 X4ag V X4x407 V X4 X4ag 
Bj—a,; B,—a, 
减少 结构 表 有 如 下 列 : Bj, K(B;), as, K(a,), Xp, d, Ah. 在 Moore FSM 
P&Y(D,) 的 情况 下 ， 减 少 结构 表 具 有 Ho =8 fF, WHO. 1, 


326.1 Moore FSM P&Y(T,) 的 减 结 构 表 





| ks ED « af Xo ^ 5 se —— 
B, n a, 001 xy D, 1 
a; 010 xx D 2 
az 011 X, X) D,D; 3 
B, 00 as 100 XqXq D, 4 
[^ 101 X3 X4 D, D; 5 
à; 110 X3 X4 DDD, 7 
B, 01 a 001 1 D, 8 


xX (6.23) 所 示 系 统 和 表 6. 1 之 间 的 连接 是 明显 的 。 类 B, 的 转换 可 以 不 考 
虑 ， 它 是 连接 的 ， 事 实 上 K(a) =00, Ak D, =D, =0。 对 于 Moore FSM PY 
Gy, Hz90. 


XX 6.1 的 内 容 用 于 推导 式 (6.17) 所 示 系 统 。 最 小 化 之 后 ， 系 统 如 下 : 
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D, -2T,T,; D, =T,T, X VT, T,x4 


D, 21, Tox, Vt4t; x, VT, t, x, Vt, t; 


(6.24) 


BMO X ( 见 表 6.2) 使 用 代码 K(a,,) 和 GSA D, 的 微 操作 集 Y, CY 构建 。 


表 6.2 Moore FSM PY(T,) 的 BMO X 











Klan) 微 操作 
T, T, T, Yı x ys Ya Ys á 
0 0 0 0 0 0 0 0 1 
0 0 1 1 0 0 0 2 
0 1 0 0 0 ] 0 I 3 
0 1 1 0 0 0 1 0 4 
1 0 0 1 1 0 0 0 5 
1 0 1 1 0 1 0 0 6 
1 1 0 0 0 1 0 1 7 
1 1 1 1 1 0 0 0 8 
BCT 表 ( 见 表 6.3) HAS Klan), K(B;), m Ali, Wm 是 状态 下 标 (如 表 


6.2)， 列 i 是 模块 B; 的 下 标 ， 其 中 a, E Bio 











表 6.3 Moore FSM P,Y(I,) 的 BCT 表 

K(a,, ) K(B,) m i 
T, T, T, Ti 12 
0 0 0 1 1 1 l 
0 0 1 0 0 2 2 
0 1 0 0 0 3 2 
0 1 1 0 0 4 2 
1 0 0 0 1 3 3 
1 0 1 0 1 6 3 
1 1 0 1 0 7 4 
1 1 1 1 0 8 4 


执行 PsY Moore FSM 的 逻辑 电路 简化 为 由 LUTer 执行 式 (6.24) 所 示 系 统 ， 
而 表 6. 2 和 表 6.3 由 EMBer 执行 。 使 用 具有 $ =3 个 输入 的 LUT 执行 FSM 逻辑 电 
路 。 令 EMB 的 可 能 配置 为 8 x8 位 。 令 函数 D, e P 的 文本 数量 为 L(D,)。 SUF 


条 件 发 生 : 


L(D,) S 


(6.25) 


这 种 情况 下 ， 对 应 函数 D, e P 的 逻辑 电路 部 分 使 用 一 片 LUT 执行 。 如 果 违 背 


条 件 式 (6.25) ， 则 功能 解体 的 方法 应 用 于 函数 D, e o. 
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对 于 Moore FSM P&YCI;), TARAA FIE: L(D,) 22, L(D,) -4 fü 
L(D4) 25. At, PRA D, 和 记 应 该 解体 。 它 会 导致 以 下 布尔 函数 系统 : 


Dy zt; (t; xi) VT4(5x,) 270, V Tið (6. 26) 


D; =T1 (Tx, V Tx») V tC. x4 VT) =T, ®,; V TØ; 
HX trr =8， 所 以 条 件 式 (6.19) 发 生 。 因 此 ， 只 需要 单个 EMB 执行 EMBer 
电路 。 结 果 逻 辑 电 路 如 图 6. 12 所 示 。 
































图 6. 12 Moore FSM P,¥(I",) 的 逻辑 电路 


从 图 6. 12 可 以 看 出 ,使 用 了 七 片 LUT 执行 BIMF 电路 。 器 件 LUT2 ~ LUTS 组 
合 输出 ， 器 件 LUTI, LUT6 和 LUT7 寄存 器 输出 。 开 始 脉冲 和 时 钟 脉冲 对 应 同步 连 
接 ， 清 除 逻 辑 器 件 1、6 和 7 的 输入 。 模 块 LUTer 有 两 层 LUT， 而 模块 EMBer 只 使 
用 单个 EMB 。 

可 以 看 出 ，Moore FSM PY( Ti) 的 模块 LUTer 由 34 HAA S =3 个 输入 的 LUT 
组 成 ， 具 有 四 层 逻 辑 器 件 。 因 此 ， 应 用 目标 转换 方法 ， 在 讨论 过 的 情况 中 ， 减 少 结 
AR FSM 逻辑 电路 的 LUT 数量 (485 倍 ) 和 (2 倍 ) 传播 时 间 。 存 在 很 多 目标 转换 
方法 8] ,但 是 超出 了 本 章 的 范围 ， 所 以 不 予 介绍 。 


6.3 Moore FSM 的 状态 代码 扩展 式 


对 于 给 定 FPGA 芯片 ， 找 到 PY Moore FSM 的 参数 typ 和 tiry。 令 以 下 条 件 发 生 : 
NN 
> 


一 > -一 (6.27) 
trr try 
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这 种 情况 下 ， 解 码 微 操作 Y, CY 是 合理 的 ,使 用 变量 z e Z 作为 BMO 的 地 址 
输入 。 这 里 的 讨论 可 以 视 为 对 文献 [34,，35] 思想 发 展 的 方法 。 

找到 划分 处 耳 , = 1 By, cc, By}, FARA Rs 位 的 二 进 制 代码 K( B;) 解码 类 B; 
Elly. FARA Ro 位 的 二 进 制 代码 KCY,) 解码 集 Y, CY. Ry 的 值 由 式 (6.16) 决 
XE. M Ro 的 值 由 式 (6.6) WE. EREET, sz 解码 类 Bi eM, MWEE z, eZ 解 

为 状态 am € B; 集 产 生 Y CY, WRA Klan) 具有 以 下 表达 式 : 











K(a,) =K(B,) *K(Y,) (6. 28) 
ER (6.28) 中 ,符号 “* ”代表 x) 


代码 并 置 。 式 (6.28) 命名 为 状态 代码 BIME 
的 扩展 式 '*] 。 这 个 表达 式 使 Pay Y Moore 




















BMO ^ 
FSM 的 结构 图 (ULE 6.13). 被 得 到 。 
在 Pgy Y Moore FSM rp, BIMF 执行 图 6.13 Moore FSM 的 状态 代码 扩展 结构 图 
Rg +Ro 个 函数 ， 形 成 式 (6.7) 所 示 系 
统 。 如 果 条 件 式 (6.27) 发 生 ， 则 PpyY Moore FSM 的 BMO 需要 以 PY 或 PpY 
Moore FSM 更 少 的 圣人 存储 模块 。 令 以 下 条 件 发 生 : 
R «Ry +Ro (6.29) 
在 这 种 情况 下 ，BIMF 执行 比 PY 或 PsY Moore FSM 情况 下 更 多 的 函数 。 
提出 的 PpyY FSM 的 综合 方法 具有 以 下 步骤 : 
1) 标记 初始 GSA， 形 成 状态 集 4。 
2) 找到 划分 处 Ma = (By, +, Bil; 
3) 解码 类 B;C J 和 微 操 作 集 Y SCY， 找到 扩展 状态 代码 ; 
4) 构建 减少 结构 表 ; 
5) 构建 系统 函数 D, e d; 
6) 构建 BMO X; 
7) 对 于 给 定 FPCA 芯片 ， 执 行 FSM 电路 。 
讨论 Moore FSM Pw Y(T) 的 综合 例子 ， 其 中 初始 GSA T, 如 图 6. 14 所 示 。 
分 析 Moore FSM PY (I5) 的 特性 。 状 态 集 4 具有 M =9 个 元 素 ， 因 此 ，R =4。 
如 下 微 操作 集 来 自 GSAT, 的 项 点 算 子 : Yo=aln, yl. Ys=ly3, ysl, Ya=tyat, 
Y, = lys, yal, Y= lyz, ys) o 而且， 开始 顶点 对 应 空 集 Y, =Ø, Blk, Q=6, Ry =3， 
2=|z1,z2，z31。 划 分 处 TRA 1-4 RR, BIB = {a}, B5 21a), a4, a4] , 
B4 ze, Gc , a! , B, = lag, dol o 因此 ， Rs =2, T= iTi Tofo 
令 使 用 的 FPGA 芯片 包括 做人 存储 模块 ， 该 模块 具有 如 下 配置 : 16 x4 和 8 x8 
(位 )。 因 此 ,每 片 EMB 有 Yo =64 位 。 各 自 使 用 式 (6.12) 和 式 (6.13), ， 可 以 找 
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图 6.14 T, 初始 化 算法 的 图 策略 


到 如 下 值 : tom =4 和 tro = 8。 因 为 N=5， 所 以 zc =2, rond. 意味 着 条 件 式 
(6.26) 发 生 。 因 此 ， 使 用 状态 扩展 方式 是 合理 的 。 

指出 一 类 Py, Y Moore FSM。 使 用 开始 脉冲 ， 零 代码 (全 部 为 0) 对 应 初始 状 
AS cl ， 应 该 载 入 寄存 器 RC 中 。 根 据 式 (6.28) ， 有 Kla) =K(B,) *K(Yi)。 因 
此 ,类 B, < IL FUSE = 应 该 解码 为 零 代码 。 使 用 频率 准则 解码 伪 等 状态 类 和 微 
操作 集 。 对 于 微 操作 集 ， 这 个 准则 可 以 重新 定义 为 如 下 形式 : 顶点 算 子 包含 集 Y, eY 
越 多 ， 其 代码 包含 的 0 越 多 。 

以 如 下 方式 解码 类 B; ela: K(B;) 200, K(B,) =01, K(B;) =10, K(B,) = 
lls 以 如 下 方式 解码 微 操 作 集 £1 22 23 









































Y,e¥: K(¥,) =000, K(Y,) = vite 000 001 010 O11 100 101 100 Ill 
001, K(Y4) 2010, K(Y,) = 00 : Ko TK Iw T€ la ETa " 
100, K(Y;) 3011, K(Y,) = 01 mle le le ie Te [|* a 
101。 对 于 状态 a, eA, EHHA 10 | * a | 
等 状态 类 和 微 操作 集 的 代码 ， EE 





fo & € h oe à 


展 的 状态 代码 可 以 找到 ， 如 
y 展 的 次 态 代码 可 以 拒 到 ， 图 6.15 Moore FSM Py Y(T) 的 扩展 状态 代码 


图 6. 15 所 示 。 

在 图 6.15 中 ， 符 号 “* ”标记 式 (6.28) 所 示 代 码 ， 对 于 Moore FSM PpyY 
(P5), TOSEBPIRS am € Ao Pgy Y Moore FSM 的 减少 结构 表 的 构建 方法 同 Pey 了 
Moore FSM。 对 于 讨论 的 例子 ，GFT 系统 包括 以 下 方程 式 : 
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Bix, dy V xix5a4 V x4 X404 





(6. 30) 


B,—3xX4X4X$05 V X4X4 X505 V X X404 V X4X1dg V X4 xdg 
Bay; By—a, 
3X (6.30) 所 示 系 统 具 有 10 个 项 ， 但 状态 By 的 转换 不 在 表 中 列 出 。 鉴 于 此 ， 


Moore FSM Py,Y(I,) 的 减少 结构 表 只 具有 Hy =9 fF, IÆ 6. 4。 
表 6.4 Moore FSM Pey Y(T) 的 减少 结构 表 





B, K(B,) d, K(a,) X, ®, h 
B, 00 a, 01001 x, D,D; 1 
az 01010 EA D,D, 2 
a, 01100 XIX2 D, D; 3 
B, 01 as 10001 X434 X3 D,D; 4 
ag 10011 4354 X D,D,D, 5 
ay 10101 33, D,D3Ds 6 
ag 11101 23i D,D,D, 7 
ag 11001 XX, D, D,D; 8 
B, 10 ay 01001 1 Dy Ds 9 


输入 存储 函数 D, s 理 系统 从 这 个 表 中 获得 。 这 些 函 数 可 以 最 小 化 ， 最 小 化 之 
， 系 统 D, e $B 是 以 下 讨论 的 情况 : 
D, =TiT, 
D, =T; V t, tox, 
D, 2 T, x x, V E Tox, V xx B0 
D, =T 5X, Vf T2X3X4Xs 
Ds =T Tx, VT, Tox, VT Tox, V TT, 
令 具 有 5=4 个 输入 的 LUT 执行 BIMF 的 逻辑 电路 。 式 (6.31). 所 示 系 统 的 分 
析 表 明 L(D,) =2, L(D,) =3, L(D4) =6, L(D4) 27, L(D;) =4。 因 此 ， 只 有 三 片 
LUT 用 于 执行 函数 D| . D; ADs WTE KZ D, Di 应 该 解体 。 以 如 下 方式 表 
































BVET]: 
D, = 五 (五 而 到 V Tox3x ) V Tı Toxax4 2 T), V ®, (6. 32) 
D, =7 (152435) Vt, (Taxax4X5 ) =T D; VT D, 

对 于 PRY Moore FSM 的 情况 ， EA LA " 

PsyY Moore FSM 的 结构 可 以 替代 为 || es h Nem 

LUTer 和 EMBer 的 组 合 ， 如 图 6. 16 Ba t 

所 示 。BMO 3&5 EMBer 表 一 样 ， 见 

表 6.5。 16.16 FPGA 执行 PpyY Moore FSM 的 结构 图 
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3& 6.5 Moore FSM Py,Y(1,) 的 减少 结构 表 








K(Y,) 微 操作 q 
zı 2 23 » Y2 Y3 Y4 Ys 
0 0 0 0 0 0 0 0 1 
0 0 1 1 1 0 0 0 2 
0 1 0 0 0 1 0 1 3 
0 1 1 0 0 1 1 0 5 
1 0 0 0 0 0 1 0 4 
1 0 1 0 1 0 0 1 6 
1 1 0 0 0 0 0 0 * 
1 1 1 0 0 0 0 0 * 


Moore FSM P&,Y(I,) 的 逻辑 电路 如 图 6. 17 所 示 。 在 这 个 电路 中 ,模块 LUTer 
FILA LUT 组 成 ， 而 模块 EMBer 只 需 一 片 EMB 。 












































x 1H6 1 
L^ T 5 6| 2 313) 12 173i 
x 2L 8| LOTI 1-51 2- Lure "P EMB 2»: 
15 2 pet a 
ect 
X3 13 3 16 3 T ce gs 
Wa AUT. pura L2 7-34 nur; [234 s 
Xs 5| 9 L | 8 
1 6 5 d 
n 7[3] LUT3 POA pure [D 
7 9 
开始 8| 3 JN 
mero H o, ulg . 
9 LUT4 LUT9 2 16 
8 
6 
[10 
LL Lurs 5.2 
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图 6.17 Moore FSM Pey Y(T) 的 逻辑 电路 


对 于 Moore FSM PY(I,), H=21, "^R FSM 状态 解码 为 自然 顺序 (Kla) = 
0000, K(a,) =0001,…)， 则 需要 十 五 片 LUT 执行 BIMF 逻辑 电路 和 两 片 EMB $i 
行 BMO。EMB 应 该 配置 为 16 x4， 因 为 对 于 Moore FSM PY( D), Rz4, 

对 于 讨论 过 的 例子 使 用 优化 状态 赋值 准则 呈 。 基 于 这 个 准则 的 模型 为 PoY。 
对 于 优化 状态 赋值 ， 属 于 单个 伪 等 状态 类 的 状态 代码 ， 应 该 放 在 代码 域 的 最 小 可 能 





eo 基于 FPGA 的 系统 优化 与 综合 

















广义 区 间 。FSM PoYCDP,) 的 优化 状态 代码 Be ss on n 
见 卡 诺 图 ， 如 图 6. 18 所 示 。 T TET 
如 下 类 代码 可 以 在 图 6.18 中 找到 : K o1 | * | as [as | a9 
(B) =00**, K(B,) =01**, K(B,) = A LIESERE 
10 | * * 


a4 | a7 

















11**, K (By) = 10**., Moore FSM PoY 








3& 6.6, 
表 6.6 Moore FSM PoY(I,) 的 减少 结构 表 
B; K(B;) a, K(a,) X, ®, h 
B, 00 ay 0100 xi D, 1 
a, 0101 Xp D,D, 2 
ay 0110 Xj X) DD, 3 
B, 01** as 1100 X4X4Xs D,D, 4 
a 1101 X5%3%q D, D,D, 5 
a 1110 3X4 D, DD, 6 
ag 1000 [207 D, 7 
ag 001 XX D,D; 8 
B, fire ay 0100 1 D, 9 


这 个 表 是 构建 系统 函数 D, e e 的 基础 。 最 小 化 之 后 ， 系 统 如 下 : 
D, =B, 2 T,T, 
D, =B; V Bax, V B4 
EN EAA EA 
D, = Bx% V Byxaxaxs V By x3%, 
执行 系统 需要 十 片 具有 S=4 AAR LUT, HITRA D, Al D; 的 电路 都 只 
使 用 一 片 LUT。 对 于 D 的 电路 需要 三 片 LUT ( 它 有 两 层 ) XF D, 的 电路 需要 五 
片 LUT， 具 有 三 层 。GSA T 的 PoY, PY 和 PayY FSM 的 逻辑 电路 的 特性 见 表 6. 7. 





表 6.7 FSM 特性 
FSM 类 型 LUT 片 数 层 数 EMB 片 数 
PyyY 9 2 1 
PY 15 3 2 
PoY 10 3 2 


因此 ， 对 于 GSA D; 的 情况 ，Moore FSM Pay Y 的 逻辑 电路 占用 最 少 的 LUT 和 
EMB。 而 且 ， 电 路 的 传播 时 间 具 有 最 小 值 。 当 然 ， 结 论 不 能 用 于 通常 情况 。 
BMO 电路 中 EMB 的 数量 可 以 减少 ， 如 果 微 操作 y, e Y 的 teg TERRA FF BEER 
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中 执行 ， 则 其 他 微 操作 的 Ntirri 在 LUT 执行 35] 。 解 释 普通 情况 下 的 这 个 思想 。 
集 Y 形 如 Y=Y UY, 而 YNY =ø, SRY BRAN, 个 元 素 ， 其 中 


N; =tpr © (N(Y) -1) (6.33) 
参数 N(Y) HÈ (6.19) 确定 。 很 明显 集 Y? 具有 剩余 的 N, 个 元 素 
N, =N -tpg * (N(Y) -1) (6. 34) 





这 种 情况 下 ， 例 如 ，PoY Moore FSM 表现 
为 具有 混合 存储 的 电路 〈 见 图 6. 16). 

使 用 符号 PoYy 代表 图 6. 19 中 的 FSM, 
在 Po Yy Moore FSM 中 ， 模 块 LUTerl 执行 系统 
o 





X 


y! 
六 一 全 


> EMBer 
| LUTer2 ES 
o-d(T,X) (6. 35) Vl E 
Ext (6.35) F, ÆT CT EMATE 图 6.19 PoYy Moore FSM 的 结构 图 
集 ， 解 码 类 B, e II, 是 足够 的 。 例如， 在 FSM 
PoY (T2) 中 , RT RAAM PocR, MÆ T = | 7 ，7,|。 同 时 , —4 LUT 用 于 
执行 寄存 器 RG. 
模块 EMBer 执行 微 操 作 y, e YY ， 而 模块 LUTer2 执行 微 操作 ye Yo WERE y 
e Y! 以 这 样 的 方式 选择 ， 即 相应 的 电路 将 使 用 最 少 的 LUT 执行 。 
例如 ， 以 下 方程 式 可 以 从 分 析 GSA D; 和 卡 诺 图 中 获得 〈 见 图 6. 18) : 
yi =4 VAs VA, = T,T,T, VTZ,7, 
ya 245 V As VA; V Ag 
js = Ay VÀ (6. 36) 
ya 7 A4 V Ae V Ag 
ys =A; V A, 
在 讨论 过 的 例子 中 ，R =5 =4。 因 此 , 式 (6.36) 
所 示 系 统 的 任何 函数 的 逻辑 电路 使 用 单个 LUT 执行 。 
如 果 R>S， 则 状态 应 该 重新 在 卡 诺 图 内 重新 排列 。 重 
新 排列 应 该 以 这 样 的 方式 执行 ， 即 减 小 4(y,) BUE, 
其 中 4(y,) 是 函数 y, e Y 的 SOP 中 参数 的 数量 。 显 
然 ， 在 优化 状态 赋值 执行 之 后 ， 状 态 an e B; 的 位 置 可 
以 在 卡 诺 图 列 的 范围 内 改变 ， 这些 卡 诺 图 列 被 这 些 状 
态 占用 。 命 名 这 个 方法 为 完善 状态 赋值 。FSM POYI) 的 完善 状态 赋值 的 结果 如 
图 6. 20 所 示 。 
在 完善 状态 赋值 的 情况 下 ， 式 (6.36) 所 示 系 统 表现 如 下 : 








LUTerl 























图 6. 20 改善 Moore FSM 
PoYy (I5). 的 状态 代码 
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Epe e xh 9. HIT. VEE 
yı 344 y2 4 Y3 24344 14244. (6.37) 


Ya =T;Ta; Ys zT,T,T, V T,T, 


xX (6.37) 所 示 系 统 的 分 析 表 明 使 用 状态 变量 T, 执行 y, 电路 是 足够 的 。 微 操 
WE y, Fly, 的 电路 使 用 一 片 具 有 S$=2 的 LUT 执行 。 一 片 具 有 553 的 LUT 执行 函数 
ys 的 电路 是 足够 的 ， 一 片 具有 S>=4 的 LUT 执行 函数 y 的 电路 也 是 足够 的 。 因 为 
N, =4 FIN, =1， 选 择 集 Y = |y, | 是 合理 的 。 在 卡 诺 图 中 状态 重新 排列 会 改变 函数 
D,ed 的 SOP。 相 应 的 ， 它 可 增加 模块 LUTerl 的 电路 的 LUT 数量 ， 相 比 初始 模块 
LUTer。 


6.4 替代 逻辑 条 件 综合 Moore FSM 


考虑 Moore FSM MPY (Ti) 的 综合 例子 ， 其 中 GSA, 如 图 6. 11 所 示 。 如 下 
逻辑 条 件 集 从 CSA D, RI: X(a,) = m, x}, X(a,.) =X(a3) 2X(a4) 21m, 
x4}, X(a5) =" =X(ag) =8。 因 此 ，G =2。 意 味 着 可 以 形成 如 下 集 P= ipi, po}. 
状态 具有 如 下 代码 : Klai) 2000, K(a5) =001,…, K(ag) =111。 构建 FSM MPY 
(Ti) 的 逻辑 条 件 蔡 换 表 ， 见 表 6. 8。 

表 6.8 FSM MPY (I\) 的 逻辑 条 件 蔡 换 表 





使 用 表 6.8， 可 能 找到 式 (6.4) 所 示 系 统 中 的 函数 如 下 : 

P, Ay VA V Asx3 V Agx 3 (6. 38) 
P, 2 Aix; V Aox4 V Agxq V Aging 

正如 本 章 参考 文献 [1] 中 所 述 ， 状 态 a,, e 4 的 状态 代码 具有 X(a,) =O, n] 
考虑 为 不 显著 的 ， 它 们 可 用 于 最 小 化 式 (6.4) 所 示 系 统 的 函数 。 使 用 这 个 可 能 
人 性， 可 以 获得 以 下 系统 函数 : 

P, =T, Tx, V Tox, V Tix, (6. 39) 
P, =f, Tx; V Tx, V Tix, 

为 了 得 到 式 (6.5) 所 示 系 统 ， 需 要 构建 Moore FSM 的 转换 结构 表 !21 ， 初 始 
结构 表 的 列 Hy, 应 该 由 列 Pi 替代 。 替 代 规则 显然 如 下 : 对 于 状态 an 转换 的 结构 表 
部 分 ， 如 果 变 量 x e 位 于 替代 人 逻辑 条 件 表 的 列 an FFT p, 的 相交 处 ， 则 变量 p, 
替代 逻辑 条 件 xio WE Moore FSM MPY(I,) 的 情况 下 ， 转 换 结构 表 具 有 19 行 。 在 
HH, AMA a, 和 a, 对 应 的 部 分 见 表 6. 9。 
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# 6.9 Moore FSM MPY(1;) 的 转换 结构 表 的 部 分 





ts K(a,, ) a, K(a,) P, o, h 
i 
(-) 000 a 001 Pi D, 1 
az 010 pip D; 2 
ay 011 PiP2 D:D; 3 
a, 
(yia) 001 ds 100 PiP2 D, 4 
a6 101 PiP D,D; 5 
a, 110 PiP2 D,D, 6 
dg 111 PiP2 D, D,D; 7 


R (6.4) 所 示 系 统 的 部 分 可 以 从 表 6. 9 中 获得 如 下 : 。 

D, 2T, T,T3; Dj =T, T; pi; D3 =T, T; Tj(py Vpi P2) VT, TT, p, 这 些 函 数 
已 经 最 小 化 了 。 

使 用 伪 等 状态 类 ， 可 简化 函数 PP 和。MPpY Moore FSM 的 结构 图 如 图 6.21 所 
示 。 在 MPpY Moore FSM 中 ， 模 块 LUTerl 执行 系统 

P=P(T,X) (6. 40) 

MPgY Moore FSM 的 模块 LUTer2 th 
行 寄存 器 RG 和 输入 存储 函数 系统 ， 形 
式 如 下 : 








p=P(T,P) (6.41) 

正如 PpY Moore FSM 的 情况 ， 模 块 
EMBer 执行 系统 Y(T) ATCT) 。 图 6.21 MP,Y Moore FSM 的 结构 图 

提出 的 MP, Y Moore FSM 的 综合 
法 具有 以 下 步骤 ; 

1) 标记 状态 ， 构 建 集 4; 

2) 伪 等 状态 类 构建 状态 集 的 划分 处 IT. = {By , +, Bil s 

3) 解码 状态 an EA; 

4) 构建 减少 逻辑 条 件 蔡 代 表 ; 

5) 优化 解码 类 B; e IT. ; 

6) 构建 减少 转换 结构 表 ; 

7) 构建 式 (6.40) 和 式 (6.41) 所 示 系 统 ; 

8) 构建 EMBer K; 

9) 利用 给 定 逻 辑 咒 件 执 行 FSM 逻辑 电路 。 

考虑 Moore FSM MPY(I) 的 综合 例子 。 这 样 的 元 素 如 内 部 状态 集 4、 划 分 处 
II, 和 类 B; e II, 之 前 就 已 经 获得 〈 见 第 6.2 节 )。 以 较 简单 的 方法 解码 am EA: 








— 
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K(a,) =000, Kla} =001, ++, K(ag) =111. 

TR, MARS an E B; 的 转换 都 依赖 相同 的 逻辑 条 件 。 这 个 规则 可 以 表现 为 
以 下 表达 式 : 

Gm 4, € B—X(a,,) =X(a,) (6. 42) 

这 个 性 质 允 许 在 逻辑 条 件 蔡 换 表 中 替代 状态 a,, e B;， 由 相应 的 类 Bi e IT, 执 
ffo 因此， 替代 的 结果 表 比 MPY Moore FSM 相应 的 表 具 有 更 少 的 行 。 在 Moore FSM 
MPY(Ii) 的 情况 下 ， 减少 逻 辑 条 件 替换 表 见 表 6. 10。 

表 6.10 Moore FSM MPY(I,) 的 逻辑 条 件 替 换 减 少 表 
B, B, B, B, B, 


P Xi X3 = 





P. x X4 - 


以 下 方程 式 系 统 可 以 从 表 6. 10 中 获得 : 
P, =DIxliVB2x3 
P, = Bix, V Bx, 
由 于 等 式 X(B3) =X(B,) =Ø, 类 K(B3) ALK(B,) 的 代码 都 可 用 于 最 小 化 式 
(6.43) 所 示 系 统 。 如 果 类 B, e IT, 的 解码 可 以 最 小 化 具有 其 他 变量 的 系统 ， 则 命 
名 为 优化 解码 。 优 化 解码 的 一 个 变 体 是 KCB) 200, =, K(By) =11。 这 个 类 解码 
的 变 体 生 成 以 下 方程 式 系统 : 


(6. 43) 


P, =Tx, V Tix; (6. 44) 
P, ST, V Tix4 
3X (6.44) 中 的 任何 函数 的 逻辑 电路 由 具有 S =3 输入 的 LUT 执行 。 
使 用 表 6. 1 构建 Moore FSM MP&Y(I,) 的 减少 转换 结构 表 ， 见 表 6. 11。 
表 6.11 Moore FSM MP,Y(I,) 的 减少 转换 结构 表 





B, K(B;) a, K(a,) P, 9, h 
B, 1 ay 001 Pi D3 1 
ay 010 PiP2 D; 2 
a 011 PP» D,D; 3 
B, 00 as 100 PiP D, 4 
ds, 101 pipa D,D, 5 
az 110 PiP D,D, 6 
ag 111 PiP2 D, D:D; 7 
B, 01 az 001 1 D, 8 
使 用 表 6. 11 构建 输入 存储 函数 系统 (最 小 化 之 后 ) 
D, =T,T> 
D, =T Tp, VTTp, =T 1p, (852) 


D, =T,Tp, Vip; V pipa 
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显然 ，BCT 和 BMO 的 表 对 于 FSM 
MP,Y(I,) 和 P&Y(CI)) 是 一 样 的 。 对 
于 模块 EMBer 也 是 一 样 的 。FSM MPpY 
(Ti) 的 逻辑 电路 如 图 6. 22 所 示 。 

两 个 子 函 数 (o, = 五 Gp, 和 @ = 
Tp, Vpi po). 用 于 执行 函数 D, 的 电路 。 
对 比 图 6. 12 和 图 6. 22 所 示人 逻辑 电路 ， 
表明 它们 占用 相同 数量 的 LUT。 但 是 
MP&,Y(I,) FSM 有 更 多 的 层 。 因 此 ， 在 
GSAT, 情况 下 ， 逻 辑 条 件 替 换 是 没有 
意义 的 。 因 此 ， 这 个 例子 只 能 说 明 提出 
的 方法 是 如 何 使 用 的 。 

比较 式 (6.26) 和 式 (6.45), ， 表 明 
逻辑 条 件 的 替代 导致 简化 函数 D, ED, 
对 于 普通 情况 ， 该 结论 是 正确 的 02] 。 普 











图 6.22 Moore FSM MP&Y(I,) 的 逻辑 电路 


通 情况 下 ， 逻 辑 条 件 的 替代 对 于 普通 或 复杂 FSM 是 合理 的 ,复杂 时 有 M2200, L> 


50，C=6。 但 是 这 个 问题 应 该 研究 。 


一 些 优 化 方法 旨 在 逻辑 条 件 蔡 换 模块 的 优化 ， 在 本 章 参考 文献 [8，37] it 
论 过 。 这 些 方法 基于 逻辑 条 件 的 解码 。 它 引入 逻辑 条 件 的 解码 模块 ( Block of Enco- 
ding of the Logic Condition, BELC), ijn, MPg, Y Moore FSM 的 结构 图 如 图 6. 23 所 
示 。 在 MPy Y 的 表达 式 中 ， 下 标 工 表明 逻辑 条 件 的 解码 应 用 到 FSM 的 特定 模型 。 


X 


BMO 














图 6.23 Moore MP», Y Moore FSM 的 结构 图 


在 MP», Y Moore FSM rp, BLC 执行 函数 


P=P(Z, X) (6. 46) 
而 BELC 执行 函数 
Zse4 (T) (6. 47) 
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函数 Z 的 数量 由 参数 R, 决定 
R, =log,(L+1) (6.48) 
基于 这 个 思想 的 Moore FSM 的 综合 方法 还 没有 发 表 。 这 里 将 这 个 方法 视 为 一 个 
可 能 的 可 进一步 研究 的 方向 。 
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op 7 ees: 
嵌入 存储 模块 设计 FSM 


摘要 一 一 本 章 关于 使 用 说 入 存储 模块 (Embedded Memory Block, EMB) 设计 
Moore FSM, Xf EMB 执行 Moore 和 Mealy FSM 逻辑 电路 的 方法 都 已 经 讨论 过 了 。 
在 这 种 情况 下 ， 一 片 EMB 足以 执行 电路 。 接 下 来 将 讨论 优化 方法 ， 即 基于 逻辑 条 
件 替 换 和 微 操 作 集 解码 。 考 虑 的 方法 基于 解码 FSM 结构 表 的 行 。 所 有 这 些 方法 都 
生成 二 级 Mealy FSM 模型 和 三 级 Moore FSM 模型 。 接 下 来 ， 将 这 些 方法 组 合 到 一 起 
用 于 进一步 优化 ， 即 减少 FSM 逻辑 电路 的 硬件 数量 。 最 后 小 节 将 考虑 在 基于 EMB 
的 Moore FSM 中 应 用 基于 PES 的 方法 。 所 有 讨论 的 方法 都 将 举例 说 明 。 本 章 由 作 
者 和 博士 生 Malgorzata Kolopienczyk (波兰 绿 山城 大 学 ) 一 起 编写 。 


7.1 Mealy 和 Moore FSM 的 简单 执行 


大 多 数 FPGA 具有 三 个 主要 模块 ， 即 连接 到 可 编程 触发 器 的 LUT HE, HA 
存储 模块 (EMB) 和 可 编程 互 连 矩 阵 0'?1。 一 片 LUT 和 触发 器 一 起 形成 逻辑 器 件 
(Logical Element，LE) ， 两 片 LE 形成 一 片 器 件 ， 两 片 器 件 形 成 可 配置 逻辑 模块 
(Configurable Logic Block ，CLB) 。 在 CLB 内 部 使 用 快速 互 连 !2] ， 但 这 是 非常 后 面 
的 情况 。 当 一 片 CLB 足够 执行 FSM 逻辑 电路 时 ， 可 以 绕 过 IE 的 触发 器 ， 因 此 
LUT 的 输出 可 以 被 寄存 器 存储 或 者 组 合 。 通 常 ，LUT 输入 数量 相当 小 (S< 
6) 1120) 。 如 果 布 尔 函 数 的 参数 数量 超过 LUT 输入 数量 ， 则 需要 多 片 LUT 执行 相应 
的 组 合 电路 。 在 这 样 的 情况 下 ， 使 用 功能 解体 方法 820.3] 。 它 导致 结果 电路 中 逻 
辑 层 数 增加 ， 使 互 连 复杂 。 也 导致 传播 时 间 和 功 耗 增 加 号 22] 。 为 了 优化 FSM 的 电 
路 参数 ， 嵌 入 存储 模块 应 该 用 于 执行 其 部 分 5 2551 。 

正如 之 前 提 到 过 的 ， 现 代 FPGA 的 EMB 具有 可 配置 性 。 这 意味 着 参数 ， 如 细 
胞 数量 和 它们 的 输出 可 以 改变 [7'?1 。 现 代 EMB 的 典型 配置 如 下 : 16K x1, 8K x2, 
4K x4, 2K x8, IK x18, 512 x36 (fy) 79) , 

因此 ， 现 代 EMB 非常 灵活 ， 可 以 达到 特定 设计 工程 的 要 求 。 令 EM 具有 了 个 
细胞 和 个 输出 。 令 Vo 为 对 应 输出 数 tr =1 的 细胞 数 ,，V 可 以 定义 为 

V= Vt, (7.1) 
讨论 当 单 个 EMB 足以 执行 FSM 逻辑 电路 的 情况 。 令 以 下 条 件 发 生 : 
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2^* (RR N) «V, (7.2) 
在 这 种 情况 下 ，Mealy FSM 可 以 简单 执行 ， 即 仅 使 用 一 片 EMB 和 R 触发 器 
形成 的 寄存 器 ， 如 图 7. 1 所 示 。 用 Mealy FSM U, 代表 这 个 电路 。 
在 FSM U, 中 ，EMB 执行 函数 
Y=Y(X,T) (1.3) 
o = P(X,T) (7.4) 
RG EHER R Pil ait 2g D 触发 器 的 逻辑 器 件 执行 。 
考虑 针对 GSA T3 的 FSM 设计 的 例子 ， 如 图 7. 2 所 示 。 











图 7.1 Mealy FSM U, 的 结构 图 图 7.2 P4 算法 的 图 策略 


GSA T 由 Mealy FSM 的 状态 标记 ， 使 用 本 章 参考 文献 [2] 中 的 规则 。 如 下 
集 及 其 参数 可 以 从 GSA I, 获得 : A-1a4, a}, M22, X51, x], L2, Y= 
Ii» , Yel, N=4, R=1, T={7T,;MOB={D,}. 

符号 U;CD;) 意味 着 FSM 的 模型 U, 用 于 控制 单元 的 综合 ， 由 GSA DP; 表现 。 
为 了 使 用 模型 Ui (六 ) ， 应 该 发 生 如 下 条 件 : tr>5, Sa =3。 符 号 S, 代表 EMB 的 
输入 地 址 的 数量 。 针 对 FSM UCT) 的 设计 方法 包括 用 于 设计 Mealy FSM 的 所 有 步 
又 [和 一 个 额外 的 步骤 。 这 个 步骤 减少 了 初始 结构 表 的 一 些 转 换 。 

FSM U, (T3) 的 情况 下 ， 结 构 表 具 有 H (3) =5 行 ， 见 表 7.1。 在 这 个 表 中 ， 
使 用 简单 状态 代码 (Kla) 20, K(as) =1)。 为 了 设计 逻辑 电路 ， 应 该 转换 初始 结 
构 表 。 

表 7.1 Mealy FSM U,(I;) 的 结构 表 








An K(a,, ) a, K(a,) X, Y, o, h 
ai 0 a 1 X, yia D, 1 
a, 1 ET Y3 D, 2 
a 1 a, 0 x, yia = 3 
a, 0 Xx) 一 4 
a 1 XQX) Y3 D, 5 





e 基于 FPGA 的 系统 优化 与 综合 a 


转换 结构 表 具 有 Vi 17 
p sg (7.5) 
这 个 表 具 有 如 下 列 : Klan), X, Y, 6, >， 其 中 > 是 行 的 数量 。 在 讨论 过 的 例 
子 中 ， 转 换 结构 表 有 V(I) =8 行 ， 见 表 7.2。 
表 7.2 Mealy FSM U, (13) 的 转换 结构 表 








K(a,, ) X Y o v 
T, Xi YyY2Y3Ya D, 
0 00 0010 1 1 
0 01 0010 1 2 
0 10 1100 1 3 
0 11 1100 1 4 
1 00 0010 1 5 
1 01 0000 0 6 
1 10 0101 0 7 
1 11 0101 0 8 


转换 结构 表 中 ， 列 K(a,,) 和 天 决定 细胞 地 址 ， 而 列 了 和 更 决定 其 内 容 。 初 始 
结构 表 的 每 行 h 对 应 EMB 的 n(h) 个 细胞 
n(h) =D N (7.6) 
TEX (7.6) 中 , ASL, 代表 来 自行 数 h 的 逻辑 条 件 的 数量 。 状 态 an e4 的 
转换 由 转换 结构 表 的 H(L) IRM: 
H(L) =2" (01.9) 
4 H(a,) 是 状态 a, eA 的 转换 的 数量 。 如 果 Han) <H(L)， 则 一 些 细胞 的 
内 容 是 相同 的 。 例 如 ， 表 7.1 的 行 1 只 有 xz。 由 于 等 式 xi =r Vx, x ， 因 此 对 于 
Jj) Y fo, RT. 2 中 的 行 3 和 4 具有 相同 的 数据 。 初 始 结构 表 的 所 有 其 他 行 都 以 这 
种 方式 转换 。 
FSM U, (13) 的 功能 电路 如 图 7.3 所 示 。 为 了 重申 这 个 事实 ， 即 使 用 的 是 特定 
逻辑 器 件 的 触发 器 ， 相 应 的 LUT 也 与 开始 脉冲 和 时 钟 脉冲 连接 ， 如 图 7.4 所 示 。 



































开始 人 

时 钟 
图 7.3 Mealy FSM U, (T3) 的 逻辑 电路 图 7.4  CityplaceMoore FSM U, 的 结构 图 
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现在 ， 考 虑 简单 的 基于 EMB 的 Moore FSM 的 执行 。 如 果 式 (7.2) 所 示 条 件 
发 生 ， 则 模型 U, 可 以 用 于 Moore FSM。 讨 论 这 种 简单 情况 。 令 以 下 条 件 发 生 : 


2'*®(R4N) >V CS 8) 
R-2!*® y. (7.9) 
N - 258 «y, (7.10) 


x (7.8) 表明 使 用 模型 U 是 可 行 的 。 式 (7.9) 
表明 对 于 系统 @ 的 电路 可 以 使 用 单个 EMB 执行 。 式 
(7. 10) 表明 系统 电路 

Y=Y(T) (7. 11) 

可 以 使 用 单个 EMB 执行 。 因 此 ，Moore FSM U, 的 
结构 图 ( 见 图 7.5) 可 以 从 式 (7.9) 和 式 (7.10) 
获得 。 

在 模型 中 ， 模 块 EMB1 执行 输入 存储 函数 系统 
式 (7.3) ， 而 模块 EMB2 执行 式 (7. 11) 所 示 微 操作 系 
统 。FSM U, 的 设计 方法 具有 以 下 步骤: BUNT Ty SERIE 

1) 构建 状态 集 4; 

2) 状态 赋值 ; 

3) 构建 结构 表 ; 

4) 结构 表 的 转换 ; 

5) 构建 微 操作 表 ; 

6) 在 给 定 FPGA 芯片 上 使 用 EMB fil LUT 执行 FSM 逻辑 电路 。 

讨论 Moore FSM U(D4) 的 设计 例子 ， 其 中 GSA P, 如 图 7.5 所 示 。 

GSA T, 由 Moore FSM 状态 标记 ， 使 用 本 章 参 考 文献 [2] 中 的 规则 。 如 下 集 
及 它们 的 参数 可 以 从 GSA DP, 中 获得 : A=la,, …, as}, M55, X={x,}, L=1, 
Y=ly,, =, y4}, N=4, R=3, T={7,, Tj, 7,1, 6 1D,, D, Dato 以 如 下 方 
法 解码 状态 a, EA: K(a,) =000,…, K(as ) =100。 使 用 这 些 代 码 和 GSA 六， 可 
以 构建 fFSM U,(D,) 的 结构 表 ， 见 表 7.3。 

表 7.3 Moore FSM U,(1,) 的 结构 表 








an 天 (an ) a, K(a,) X, D, h 

a, 000 a, 001 1 D, 1 

ay (yiya) 001 az 010 ži D, 2 
a, 011 x, D,D; 3 

a,l y3) 010 as 100 1 D, 4 
as (Yiya) 011 as 100 1 D, 5 
as(y;ya) 100 d; 000 1 = 6 


Qi sso naasa 


E 








这 个 表 具 有 H,(D4) =6 行 。 这 个 表 的 列 an 包括 当前 状态 an e 4， 和 在 当前 状 


态 产 生 的 微 操作 集 Yan) CY。 


Moore FSM U, 的 转换 结构 表 具 有 VW 7, 其 中 V = Vi。 转换 结构 表 具 有 列 K 
(a,), X, ®, v, ho 在 Moore FSM U,(D4) 的 情况 下 ， 这 个 表 具 有 Vo (Ta) = 16 


43. AAT 11 ~16 只 有 0， 它 们 不 在 表 7.4 中 。 
表 7.4 Moore FSM U,(I,) 的 转换 结构 表 








K(a,,) x p v h 

TAN F D, D,D; 
000 0 001 1 1 
000 1 001 2 ] 
001 0 011 3 3 
001 1 010 4 2 
010 0 100 5 4 
010 1 100 6 4 
011 0 00 7 5 
011 1 100 8 5 
100 0 000 9 6 
100 1 000 10 6 


表 7.5 Moore FSM U,(I,) 的 微 操作 表 











K(a,,) Y m 
T, T,T, YiY2YaYa 
000 0000 1 
001 1100 1 
010 0010 3 
011 1001 2 
100 0110 4 


为 了 使 表 7. 3 和 表 7.4 的 连接 更 明显 ， 后 者 包括 行 h。 这 列表 明 结 构 表 的 行 数 
对 应 转换 结构 表 的 行 。 例 如 ， 表 7.4 的 行 1 和 2 对 应 表 7.3 中 的 行 1。 

微 操作 表 包 括 列 K(a,,),Y, m, 在 FSM U(T4) 的 情况 下 ， 它 应 该 包括 8 17. 
只 有 其 中 的 5 行 在 表 7. 5 中 。 为 了 构建 这 个 表 ， 使 用 来 自 结构 表 的 列 am 的 数据 。 


使 用 的 FPGA 芯片 的 EMB 
有 配置 16 x4 和 8 x8。 第 一 
个 配置 用 于 执行 转换 结构 表 。 
两 种 配置 都 可 执行 微 操 作 表 。 
选择 配置 8 x 8 执行 系统 Y, 
Moore FSM U,(I4) 的 逻辑 电 
路 如 图 7.6 所 示 。 


图 7.6 Moore FSM U,(D,) 的 逻辑 电路 





oo 1 ON CA 4 C2 D — 
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在 电路 中 ，LUTI ~ LUT3 用 于 执行 寄存 器 RG。 模块 EMBI 和 EMB2 都 有 未 使 
用 的 资源 。 

已 知 式 (7.2), 3X (7.9) 和 式 (7.10) 所 示 条 件 只 对 简单 的 FSM RÆ, 
如 果 违 背 这 些 条 件 ， 则 结构 解体 的 不 同方 法 应 该 用 于 优化 基于 EMB 的 FSM 
电路 9“ 。 





7.2 FSM 的 结构 解体 


为 了 减少 FSM 逻辑 电路 中 LUT 的 数量 ， 可 以 使 用 结构 解体 的 方法 。 结 构 解 体 
导致 FSM 电路 的 结构 级 数 增加 。 结 构 解 体 有 如 下 方法 “> DRRR; 


@) 解 码 微 操 作 集 ; Of uia GRE. 由 解码 结构 表 的 行 。 这 里 将 讨论 这 些 
方法 。 
4 X(a,) 为 逻辑 状态 集 ， 决 定 状 态 an e 4 的 转换 ， 令 
G = max(| X(a;) l =", | X(ay) l|) CUZ) 
如 果 发 生 以 下 条 件 
G «cL (7.13) 


WE FEB AR ERRATA?) S P-ip os. pol 为 额外 变量 集 ， 用 于 逻辑 条 
件 替 换 。 为 了 执行 替换 ， 应 该 特殊 的 构建 逮 辑 条 件 蔡 换 表 。 在 这 个 表 中 ， 列 由 变量 
peP 标记， 而 行 由 状态 an e4 标记 。 因 此 ， 表 包括 6 PRIM f. 如果 在 状态 an 
EA 中 用 变量 p, e P EREHE x, eX, WE x, 应 该 写 在 这 个 表 的 行 an 和 列 
p, 的 交叉 处 。 为 了 最 小 化 逻辑 电路 用 于 替换 的 硬件 数量 ， 逻 辑 条 件 的 分 布 以 这 种 
方式 执行 ， 即 每 个 变量 x, e X 总 是 替换 这 个 表 的 相同 列 。 当 然 ， 这 样 的 分 布 不 总 是 
可 行 的 。 以 下 系统 可 以 从 逻辑 条 件 替换 表 中 获得 : 














P=P(T,X) (7. 14) 
MP Mealy FSM 的 结构 图 如 图 7.7 所 x " 5 

Ko dE MP 中 ,符号 MM 代表 逻 辑 条 件 替 BRLC BIMF Es RE 

换 模块 (Block of Replacement of Logical 开始 

Condition, BRLC) 存在 ， 符 号 已 代表 MEER 





BIMF, 
在 MP Mealy FSM 中 ,模块 BRLC 
以 LUT 执行 。 它 产生 函数 式 (7.14). 
模块 BIMF 可 以 使 用 LUT 或 者 EMB 执行 。 它 执行 函数 
b=P(T,P) (7, 15) 
ye P) (7.16) 
MPY Moore FSM 的 结构 图 如 图 7.8 所 示 。 符 号 了 代表 BMO 存在 。 
{E MPY Moore FSM 中 ，BRLC 产生 函数 式 (7.14), BIMF 执行 函数 式 


图 7.7 MP Mealy FSM 的 结构 图 
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BMO 

















图 7.8 MPY Moore FSM 的 结构 图 


(7.15), BMO 产生 函数 式 〈7. 11) 。BIMF 和 BMO 都 可 以 使 用 LUT 和 EMB 执行 。 
MP 和 MPY FSM 的 设计 方法 将 在 第 8 章 讨论 。 
Ty) 个 不 同 的 微 操 作 集 YCY 写 入 GSA 太 的 顶点 算 子 中 。 使 用 具有 Ry 位 的 
二 进 制 代码 K(Y,) 解码 每 个 集 Y,， 其 中 


Ry =log, (Tọ +1) (7.17) 
值 从 1 加 到 To, re Sls yy =Ø 使 用 ; 
变量 z eZ 解码 集 YCY, HIZI Ry. BMO 





这 个 方法 的 应 用 导致 PY Mealy FSM x 
模型 ， 如 图 7.9 所 示 。 符 号 了 代表 微 操 作 
模块 BMO, 

在 PY Mealy FSM 中 ，BIMF 执行 式 
(7.3) 所 示 系 统 和 函数 系统 


BIMF 











图 7.9 PY Mealy FSM 的 结构 图 


Z=Z(T,X) (7. 18) 
BMO 执行 函数 
Y -Y(Z) (7.19) 
BMO 电路 可 以 使 用 LUT z à 
或 EMB 执行 。 . e BMO 




















事实 ， 即 Moore FSM 的 输出 函 zT] 
数 只 依赖 其 输入 。 这 个 方法 可 
以 和 目标 转换 方法 一 起 应 图 7.10 MPY Mealy FSM 的 结构 图 
用 5 ， 但 不 在 本 书 讨论 。 

逻辑 条 件 蔡 换 和 微 操 作 集 解码 的 共同 应 用 导致 MPY Mealy FSM， 如 图 7. 10 
所 示 。 

在 MPY Mealy FSM rp, BIMF 产生 函数 式 (7.15) 和 函数 

aiio di (7.20) 

如 果 它 们 不 写 人 相同 的 初始 CSA 的 顶点 算 子 中 ， 则 微 操 作 yi y, e Y AAR 

容 5] 。 令 微 操作 集 Y 由 兼容 微 操作 类 划分 ， 并 表现 为 


X 
在 Moore FSM 的 情况 下 ， — BRLC = BIMF ^ RG 
不 使 用 这 个 方法 。 连 接 到 这 个 | 
; 
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YoY uur" (7.21) 
TEX (7.21) 中 ， 严 是 兼容 微 操作 的 第 上 类 (k=1, K), &1Y' | =N, W 
有 Ri 位 的 二 进 制 代 码 Kn) 解码 微 操作 y, e Y, HEP 
R; = log, (N, +1) (CT. 22) 
N, 加 1， 考 虑 到 没有 微 操作 ye Y 属于 任何 微 操作 集 Y, SCY。 为 了 解码 所 有 的 微 操 
fe, Ry PEE z, eZ 是 足够 的 ， 其 中 
Ry = RI +R, +* + Rx (7.23) 
RZ 可 以 表示 为 2=Z!iUZ?U... UZ"; 变量 zs e Z! 用 于 解码 兼容 微 操作 y, e Y. 
解码 微 操 作 之 后 ， 系 统 了 表示 为 以 下 子 系统 集 : 
Y=Y(2!) 





: (7.24) 
Y* =y(Z*) 


微 操作 y, e Y* 由 解码 器 DC, 产生 (k=1, K), ， 解 码 器 有 Ri 个 输入 和 Ni 个 
输出 。 

解码 器 整体 形成 模块 BD。 这 个 方法 的 应 用 导致 PD Mealy FSM， 如 图 7.11 
所 示 。 

在 PD Mealy FSM 中 ，BIMF 使 用 LUT 或 者 EMB 执行 。 它 产生 函数 式 (7.3) 
和 式 (7. 20) 。 模 块 BD 使 用 LUT 执行 式 (7.24) 所 示 系 统 。 

当然 ， 这 个 方法 可 以 和 逻辑 条 件 替 换 一 起 应 用 。 它 导致 MPD Mealy FSM。 如 果 
BMO ( 见 图 7. 10) 由 模块 BD 替换 ， 则 MPY Mealy FSM 转换 为 MPD Mealy FSM, 
正如 前 面 的 情况 ， 这 个 方法 不 能 直接 在 Moore FSM 中 使 用 。 

以 有 Ry 位 的 二 进 制 代码 KCF) 解码 Mealy FSM 结构 表 的 每 行 Fp, FEP 

Ry =log,H (0,25) 

对 于 这 个 解码 使 用 变量 z, eZ， 其 中 1 Z1 = Ry。 它 导致 PH Mealy FSM, WAI 

7.12 所 示 。 



















































































Z Y 
BD — 
X 中 T X P 
a [rS RUE s BER | BIMF -? 四 
— — y 
开始 开始 
时 钟 时 钟 
图 7.11 PD Mealy FSM 的 结构 图 图 7.12 PH Mealy FSM 的 结构 图 


在 PH Mealy FSM rf, 行 解码 模块 (Block of Encoding of Row, BER) 执行 函数 
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式 (7.18); BIMF 执行 函数 式 (7. 19). 和 输入 存储 函数 ， 表 示 为 以 下 系统 : 








© =0(Z) (7. 26) 
在 MPH Mealy FSM (B, y à 
CM Z 
BRLC 执行 式 (7.14) 所 示 系 | BRLC |— BER [^ BIMF = RG F 





























i, BER 执行 式 (7.20) 所 示 
系统 ，BIMF 执行 式 (7.19) 和 = | 
x (1.26) 所 示 系 统 ， 如 图 
7.13 所 示 。 相 同 的 方法 可 以 图 7.13 MPH Mealy FSM 的 结构 图 
用 于 Moore FSM 情况 。 讨 论 在 第 7. 2 节 讨论 的 模型 的 设计 方法 和 例子 。 

如 果 EMB 用 于 执行 FSM 电路 ， 则 只 有 模型 PY 和 PH 可 以 用 于 Mealy FSM, Ti 
只 有 模型 PH 可 以 用 于 Moore FSM。 














7.3 ”解码 微 操作 集 设计 Mealy FSM 


基于 EMB 的 PY Mealy FSM 的 结构 图 如 图 7. 14 所 示 。 
重申 这 个 事实 ， 即 BIMF 和 
BMO 都 用 EMB 执行 ,用 PY, Mealy — 工 」FMB1|eJRG Z Z emp? — 
FSM 代表 FSM， 如 图 7.14 所 示 。 [^*^ 
在 PY, FSM 中 ,模块 EMB1 执行 函 Ae 
HGk (7.3) MÈ (7.18); 模块 
EMB2 执 行 K 数 式 (7. 19 ) : PY, 图 7.14 基于 EMB 的 PY Mealy FSM 的 结构 图 
Mealy FSM 的 设计 方法 具有 以 下 步 又; 
1) 构建 状态 集 A; 
2) 状态 赋值 ; 
3) 构建 Mealy FSM 的 结构 表 ; 
4) 解码 微 操作 集 ; 
5) 构建 转换 结构 表 ; 
6) 构建 BIMF 表 ; 
7) 构建 BMO X; 
8) FA EMB Ail LUT 执行 FSM 逻辑 电路 。 
如 果 发 生 以 下 条 件 ， 则 可 以 应 用 模型 PY : 
AU (RGR) <V (7.27) 
N - 2^ «y, (7. 28) 





















































— 


Mealy FSM 的 状态 标记 ， 使 用 本 章 参 考 文 献 [2] 中 的 规则 。 
针对 Mealy FSM U,(DP5), ， 如 下 集 及 其 参数 可 以 找到 : 4 = |al,，…, as}, M= 
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$,X2|m, to, x}, Lz3, Yoin ; $9 3908 
N=7, R23, Teit,, D, T1, Het 
D,, D3}. VA — E Jr i ER AS a, e A: 
K(a,) 2000, =, K(a;) 2100, 

令 使 用 的 FPGA 芯片 有 Vo = 384 fiz, H. 
EMB 存在 如 下 配置 64 x6 和 32 x12 fiz, X 
F FSM U, (T;), 则 有 22+& (R+N) =640 
位 。 因 此 ， 不 能 使 用 模型 U, (CIs) o 

在 GSA T; 的 顶点 算 子 中 有 Ty) =5 个 微 操 
ER: Yy 2 iyo n wt, h = [y vals 
Y3={1¥2, ysl, Ys 2 lys, Yor volo MH, ay 
到 a, 的 转换 器 件 不 会 生成 微 操 作 。 因 此 ， 在 
讨论 的 情况 下 集 yo = 8。 它 的 存在 应 该 用 于 考 
虑 找到 额外 的 变量 数量 。 使 用 式 (7.17)， 可 
以 找到 Ry=3, Ze iz, 2, zło 

































































图 7.15 初始 化 FSA T5 


检查 式 (7.27) 和 式 (7.28) 所 示 和 条件。 在 GSA Ts 情况 下 ,表达 式 (7.27) 
如 下 : 384 =384。 表 达 式 (7.28) 产生 不 等 式 56 <384。 因 此 ， 发 生 两 个 条 件 ， 可 


以 使 用 模型 PY, (I's ) 。 


Mealy FSM U, (Ts) 的 结构 表 具 有 Hi(T;) 29 13, Wa 7.6. 
表 7.6 Mealy FSM U,(Is) 的 结构 表 





K(a,,) a; Kia,) X, Y, o, h 
a 000 ay 001 1 yiYaYs D, 1 
a 001 a3 010 xy Y1 y4 D, 2 
as 100 Xix Yays D, 3 
ds 100 X, X; Y3¥6 D, 4 
a; 010 ay 011 1 Y3Y6Y7 D,D; 5 
ay 011 da 011 X3 Ya3YoY D,D; 6 
ay 000 x3 一 一 y 
ds 100 a, 000 X3 YaYs - 8 
ai 000 x yia - 9 


因为 EMB 用 于 执行 FSM 逻辑 电路 的 所 有 组 合 部 分 ， 所 以 微 操作 集 可 以 以 任意 


方式 解码 。 这 里 以 如 下 方式 解码 : K( Yo) =000, 


K(Y,) 2001, =, K(Ys) =101, 


为 了 构建 转换 结构 表 ， 初始 表 的 列 Y, 应 该 由 列 Y, AL KCY,) BRR. MR, 86 
换 结构 表 的 行 数 与 Mealy FSM 的 初始 结构 表 一 样 。Mealy FSM PY,, (7s) 的 转换 结 
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构 表 由 表 7.7 替换 。 转 换 结构 表 用 于 构建 BIMF Ko # PY, FSM 情况 下 ， 这 个 表 具 
有 如 下 列 : Klan), X, Z, Ð, v, ho WK(a,,) AX Tk EMB 的 细胞 地 址 。 列 2 
f o WERE. fk Mealy FSM PY,(CIS) 情况 下 , L =3， 因 此 , H(L) =8。 
BIMF 的 表 包 括 40 行 ， 其 中 有 些 有 用 的 数据 。 太 (7 ) =64。 因 此 ， 表 的 24 行 全 是 
0。 部 分 BIMF 表 见 表 7.8。 

表 7. 8 表现 状态 a, e 4 的 转换 。 加 入 列 h， 表 明 表 7.7 RISE 7.8 的 行 的 连接 。 

BMO 的 表 具 有 如 下 列 : KCY,), Y,, v， 以 简单 方法 构建 ， 这 个 表 具 有 Zo 行 ， 
其 中 

Zo z2Rv (7. 29) 
在 Mealy FSM PY,(I5) 情况 下 ， 这 个 表 具 有 Zo =8 行 ， 见 表 7.9。 
表 7.7 Mealy FSM PY,, (Is) 的 转换 结构 表 





an, K(a,,) a, K(a,) X, Y, K(Y,) o, h 
a, 000 ay 001 1 Y, 001 D, 1 
ay 001 a, 010 X, Y, 010 D; 2 
a; 100 Xp X5 Y, 011 Di 3 

as 100 HX Y, 100 D; 4 

az 010 ay 011 1 Ys 101 DD; 5 
ay 011 a, 011 X3 Y; 101 D,D, 6 
a, 000 X3 Y; 000 - 7 

ds 100 a, 000 X3 Y; 011 - 8 
aM1 000 X3 Y, 010 E 9 


表 7.8 BIMF (状态 a,) 的 部 分 表 








天 (an ) X Z o v h 

Ti T3 T3 XXX 212523 D, DD, 
001 000 100 100 9 4 
001 001 100 100 10 4 
001 010 011 100 11 3 
001 011 01 100 12 3 
001 100 010 010 13 2 
001 101 010 010 14 2 
001 110 010 010 15 2 
001 111 010 010 16 2 
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表 7.9 Mealy FSM PY,(1;) 的 BMO 表 








K (X) Y, v 

Z12223 YiY2Y3Y4YsYeY7 
000 0000000 1 
001 1110000 3 
010 1001000 2 
011 0100100 4 
100 0010010 3 
101 0010011 6 
110 0000000 7 
111 0000000 8 


Mealy FSM PY„ (了) 的 逻辑 电路 如 图 7. 16 所 示 。 
Ti 





yr 
t+ y2 





I—» V4 
[— Ys 
> Yo 
I—-Y7 
































Fd 7.16 Mealy FSM PY,(I;) 的 逻辑 电路 


正如 从 图 7. 16 中 看 到 的 一 样 ，BIMT 的 电路 使 用 EMB 执行 ， 配 置 为 64 x6 位 ， 
而 BMO 的 电路 基于 EMB ， 配 置 为 32 x8 位 。 


7.4 解码 兼容 微 操 作 域 设计 Mealy FSM 


基于 EMB 的 PD Mealy FSM 的 结构 图 如 图 7. 17 所 示 。 


在 这 个 模型 中 ， 模 块 EMB 执行 函 

数 式 (7.3) 和 式 (7.20)。 模 块 LUTer X | EMBI r. RG |Z 2, ume H 

执行 函数 式 (7.24) 。 寄 存 器 RC 和 ILU- A| 

Ter 的 电路 都 使 用 LUT 执行 。PD Mealy 2d 

FSM 的 设计 方法 具有 同 PY,, Mealy FSM 

的 方法 相同 的 步 又。 唯一 不 同 是 步骤 4。 图 7.17 基于 EMB 的 PD Mealy FSM 的 结构 图 
在 PD Mealy FSM 的 情况 下 ， 步 又 4 

关于 寻找 和 解码 兼容 微 操作 域 。 如 果 发 生 以 下 条 件 ， 则 可 以 应 用 PD Mealy FSM 的 

模型 ; 
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2^ CRX RSS Sy, (7.30) 

这 里 讨论 Mealy FSM PD (T5) 的 设计 例子 。GSA T; 如 图 7. 15 所 示 。 所 有 的 
集 及 其 参数 在 7.3 节 已 全 部 找到 。 令 其 为 K(al) =000, =, K(as) =100。 

找到 集 了 的 划分 处 I = 1 Y YF] 。 在 FSM PD (Ts) 的 情况 下 ， 可 以 形成 
如 下 兼容 微 操作 和 集 : Y = 17 ,ys, yel Y 0o, ya, 71, Palys}. AIt, K=3, 
N =N =3,，N3=1。 使 用 式 (7.22) 和 式 (7.23) ， 可 以 找到 如 下 值 : R =R = 
2, 8,51, 15 25, BRS Z =la wl, Z elza gl, = 及 

令 使 用 的 FPGA aks Fr Vo =512 (位 )， 配 置 为 64 x8, AT Mealy FSM U, 
(Ts) 的 逻辑 电路 需要 Vo S640, Ak, ARE GEARY U (Ts). RIKIN (7.30) 
产生 如 下 等 式 512 =512。 因 此 ， 可 以 使 用 模型 PD( TS). 

这 里 以 如 下 方式 解码 微 操 作 yn E Y K(yi) =K(y>) -01, K(y4) = K(ys) =10, 
K( y6) =K(y,) =11, K(y3) =1. 

Mealy FSM PD( I's) 的 结构 表 以 表 7.6 RM, Mealy FSM PD(I3) 的 转换 结构 
表 和 表 7.7 有 相同 的 列 。 对 于 讨论 过 的 例子 ， 见 表 7. 10。 

表 7.10 Mealy FSM PD(I;) 的 转换 结构 表 





am Klan) a, K(a,) X, Y, K(Y,) $, h 
a, 000 ay 001 1 Y, 01001 D, 1 
a 001 az 010 xi Y 01100 D, 1 
as 100 XX) Y, 10010 D, 3 
as 100 Xp X Y, 11001 D, 4 
ay 010 ay 011 1 Y, 11111 D,D; 5 
a4 011 a4 011 x Y; 11111 D,D; 6 
a 000 X y 00000 mu 1 
a 100 a, 000 xs 3 10010 = 8 
a 000 x Y, 01100 = 9 


这 里 解释 列 KCY,) EARE. MORER Y, CY RE KCY,) ARAA 

码 K(y,) (Ez 1,K), 其 中 yy, eY,: 
Y, 2K(y)'*K(y,)? *-- *K(y,)* (7.31) 

TEX (7.31) 中 ， 符 号 * 代表 并 置 。 

fa, Y, iyi. yo. yal o GI K(y,) =01, K(y5) =01, K(y3) =1。 因 此 ， 表 
7. 10 中 的 第 一 行 应 该 包括 代码 01011 在 列 K(Y,) 中 。 S Ya = lys, yel fll ys e Y, yg 
< 站 。 这 个 集 不 包括 微 操 作 y, e Y, 意味 着 应 该 使 用 K(8)”=00。 给 出 代码 
(Y4) =11001。 所 有 其 他 代码 天 (总 ) 以 这 种 方式 形成 。 

PD FSM 的 BIMF 表 基 于 转换 结构 表 构 建 。 在 FSM PD(T;) 中 , 表 具 有 Vi(Ts) = 
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64 行 。 这 个 表 的 部 分 为 表 7. 11， 这 个 表 描 述 a e A 的 转换 。 
表 7.11 FSM PD(T;) 的 部 分 BIMF x 








K(a,,) \ Z p v h 

TTT, Xp 3X3 212242425 D, D,D; 
001 000 11001 100 9 4 
001 001 11001 100 10 4 
001 010 10010 100 11 3 
001 011 10010 100 12 3 
001 100 01100 010 13 2 
001 101 01100 010 14 2 
001 110 01100 010 15 2 
001 111 01100 010 16 2 


在 PD FSM 情况 下 ， 不 需 
要 BMO 表 。 式 〈7.24) 所 示 
系统 可 以 从 微 操作 码 表 中 获 
得 。 在 讨论 的 例子 中 ， 以 下 系 
统 可 以 从 微 操 作 代码 中 获得 : 



































FSM PD(IS) BERI 
路 如 图 7. 18 所 示 。 

BIMF 的 电路 使 用 单个 图 7.18 Mealy FSM PD(I5) 的 逻辑 电路 
EMB 执行 ， 配 置 为 64 x8 位 。 三 个 逻辑 器 件 用 于 执行 RG 电路 。 最 后 ， 六 片 LUT 
用 于 执行 BMO 电路 ， 等 式 y3 =z5 的 执行 不 需要 LUT. 





7.5 解码 结构 表 行 设计 Mealy FSM 


基于 EMB 的 PH Mealy FSM 的 结构 图 如 图 7.19 所 示 。 


在 这 个 模型 中 ， 模 块 EMB1 执行 函 ; 
ewm ^ ru 2 I RGH 
p Y 








X 
数 式 (7.18), 模块 EMB2 执行 函数 式 
(7.19) 和 式 (7.26)。PH FSM 的 设计 














开始 
方法 具有 以 下 步骤 : 时 钟 
1) 构建 状态 集 4; 
2) 状态 赋值 ; 图 7.19 基于 EMB 的 PH Mealy FSM 的 结构 图 
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3) 构建 Mealy FSM 结构 表 ; 

4) 解码 结构 表 行 ; 

5) 构建 转换 结构 表 ; 

6) 构建 BER 表 ; 

7) 构建 BIMF 表 ; 

8) 使 用 EMB fll LUT 执行 FSM 的 逻辑 电路 。 
如 果 以 下 条 件 发 生 ， 则 应 用 PH FSM 的 模型 : 





2E LR W (7.32) 

(N+R) +288 < V, (1.33) 

这 里 讨论 针对 Mealy FSM PHGPS). 的 设计 例子 。 如 同 前 面 的 例子 ， 有 如 下 的 

集 及 其 参数 ; A= 1601, =, as}, M=5, X= [fis 3, x1, L3, Ys lys c 5l, 


N=7, R=3, T={T,, T2, T3}, $=|D1, Dj, DU 。 以 一 般 方 法 解码 状态 a,, € 4:K 
(al ) 2000, =+, K(as) 2100, 

令 使 用 的 FPGA 芯片 有 Vo =256 位 ， 配 置 为 236 x1，128 x2, 64 x4, 32x8, 
16x16 (位 )。 因 为 执行 Uy (T5) 的 逻辑 电路 需要 640 位 ， 所 以 不 能 使 用 这 个 
gent. | 

' 因为 CLs) =9, 所 以 Ry 54, Z= dz, s, z4}o 对 于 FSM PH (075), 关系 
X (7.32) 和 式 (7.33) 如 下 : 64 x4 =256 和 10 x16 <256。 因 此 ， 可 以 使 用 模 
n PHI). 

FSM U, (Ts) 的 结构 表 为 表 7.6。 FH FS | Fi ，…, Fo) 。 以 简单 方法 解码 行 
F, € FiKCF,) 20000, K(F5) 20001, =, K( Fy) 21000, 

为 了 构建 转换 结构 表 ， 用 列 K( P ) 足 以 替换 初始 结构 表 的 列 Y, M D GIR, 
列 具有 对 应 行 的 代码 。Mealy FSM PH(7s) 的 结构 表 为 表 7. 12。 

表 7.12 Mealy FSM PH (TT) 的 转换 结构 表 





h 
a 000 a, 001 1 0000 1 

az 001 ay 010 Ai 0001 2 

as 100 X, X 0010 3 

as 100 x, x, 0011 4 

ay 010 a, 001 1 0100 5 

a, 011 a4 011 X 0101 6 

a, 000 X3 0110 7 

Gs 100 a, 000 x3 0111 8 

a, 000 X 1000 9 


转换 结构 表 用 于 构建 BER Ko Æ PH FSM 的 情况 下 ， 这 个 表 具 有 如 下 列 : 
K(a,) , X, KCF,) , vo 对 于 Mealy FSM PH(IDS) , 3X 48 V (Ps) 264 行 。 这 个 
表 的 部 分 (对 于 状态 a s4) WKT. 13, 
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表 7.13 FSM PH(I;) 的 部 分 BER x 

















K( an) X K(F,) v 

T, 7,7, "ma x dh 
001 000 0011 9 
001 001 0011 10 
001 010 0010 11 
001 011 0010 12 
001 100 0001 13 
001 101 0001 14 
001 110 0001 15 
001 111 0001 16 


BIMF 表 具 有 如 下 列 : KCF,), D, Y, ho 第 一 列 具 有 EMB2 的 细胞 地 址 。 细 胞 
内 容 由 列 D 和 了 决定 。 这 个 表 以 简单 方法 填充 ， 列 d 和 了 的 内 容 直 接 从 结构 表 中 
取得 。 在 FSM PHT) WERF, ARAH H (Ts) =9 行 ， 见 表 7. 14。 
表 7.14 Mealy FSM PH(T;) W BIMF x 








K(F,) o Y h 
21252424 D, DD, YiY2Y3YaYsYeY 

0000 001 1110000 1 
0001 010 1001000 2 
0010 100 0100100 3 
0011 100 0010010 4 
0100 011 0010011 5 
0101 011 0010011 6 
0110 000 0000000 7 
0111 000 0100100 8 
1000 000 1001000 9 








在 这 个 电路 中 ，BER dh 
































2 they 
EMB1 JA fj, BIMF 由 EMB2 2| EMB |; = à eun Len 
执行 。EMB1 (EMB2) 的 内 Tal 5 
容 来 自 表 7.13 ( 表 7.14)。 |2] 
Mealy FSM PH( I’; ) 的 逻辑 电 Ha 
路 如 图 7. 20 所 示 。 i 























对 于 一 些 使 用 的 GSA T; 
和 FPGA ais Hr, 令 式 (7.23) 
所 示 条 件 被 违背 。 令 以 下 条 图 7.20 Mealy FSM PH(IS) 的 逻辑 电路 
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件 满足 : 

(R € Ry) +2™ < Vy (7. 34) 

N° 2% e y, (7.35) 

在 这 种 情况 下 ，PH7 Mealy 

FSM 的 模型 ( 见 图 7.21) 可 以 ， See p 
被 使 用 。 所 有 的 PHY Mealy FSM BER ^. BIME Ra 

模块 可 以 使 用 EMB 执行 。BER 
执行 系统 Z(T, X), BIMF 执行 a 






































x 
P(Z) 和 
Z "= ZZ) (7.36) 图 7.21 PHY Mealy FSM 的 结构 图 


变量 z, e Z' 用 于 解码 微 操作 

集 YCY。 这 些 变 量 (Ry) 的 数量 由 式 (7.17) WE BMO 执行 以 下 系统 : 
Y = ¥(Z') (7. 37) 

3X (7.37) PAR ABS (7.19) 所 示 系 统 相同 。 

PHY Mealy FSM 的 设计 方法 具有 以 下 步骤 : 

1) 构建 状态 集 A; 

2) 状态 赋值 ; 

3) 构建 Mealy FSM 的 结构 表 ; 

4) 解码 结构 表 行 ; 

5) 构建 转换 结构 表 ; 

6) 构建 BER 表 ; 

7) 解码 微 操作 集 ; 

8) 构建 BIMF 表 ; 

9) 构建 BMO X; 

10) 用 特定 FPGA 芯片 执行 FSM 的 逻辑 电路 。 

这 里 讨论 针对 Mealy FSM PHY( T5) Wizit Pl. HA, X, Y, T, OMETM 
的 参数 已 经 找到 。 以 简单 方法 解码 状态 as4:K(al) =000, =, K(a;) 2100; 

FSM U, (T5) 的 结构 表 为 表 7.6。 使 用 相同 的 代码 K(F)， 正如 PH(Ts) 情 
况 下 。 人 允许 构建 Mealy FSM PHY(IS) 的 转换 结构 表 ， 和 表 7. 12 一 样 。 

正如 之 前 找到 的 一 样 ， 对 于 FSM U (Ts) 的 情况 下 ， 有 To =5 个 微 操 作 集 。 
有 如 下 微 操作 集 : Yi -ixi y2, ts Yos lm, xal. Yo=170. ys}, Yam lyas Yel» 
Y; ={y3,， Ye， rlo ÆTI, Ry = 3。 以 简单 方法 解码 集 Y, C Yx K( Yo) =000, 
K(Y,) 2001, =, K(Y4) 2100, XY, - 0. 

对 于 FSM PHY(I;), BER 表 和 Mealy FSM PH(I;) 的 一 样 。BIMF 表 具 有 如 下 
列 : K(F,), D, K(Y,), h。 这 个 表 以 简单 方法 构建 。 类 似 BIMF 表 对 于 PHY(T;) 
FSM, 在 FSM PHY(Is) WRF, IARA H (Ts) =9 行 ， 见 表 7.15。 


270 
____ 


& 第 7 章 PAGER FSM 全 


表 7.15 Mealy FSM PH(I;) 的 BIMF X 











K(Y,) h 

K(F,) p al 
DDD; “54647 
2) 272424 a as ; 
010 010 2 
an 100 011 3 
ae 100 100 4 
ns 011 101 5 
Er 011 101 6 
0101 : : 
000 : 

0110 un 
000 : 

a 000 010 

1000 


相同 的 方式 构建 ， 正 
从 表 7.15 中 可 以 看 出 , 集 Z' 具 有 变量 zs ~z,, BMO pe a pii 
如 其 为 PY FSM 完成 一 样 。Mealy FSM PHY (I5) 的 逻辑 电路 如 图 7. ZN 








myi 
L y2 
> y3 
c V4 
I—» Ys 
> Yo 
I—» V7 

















o06-10 Un RU N — 














图 7.22 Mealy FSM PHY (I3) 的 逻辑 电路 


这 个 电路 具有 三 级 EMB。 它 执行 FSM 是 最 慢 的 ， 等 于 U, (D). FSM 可 以 使 
用 一 级 EMB 执行 ， 配置 为 64 x4， 如 图 7. 23 所 示 。 























[8 7.23 Mealy FSM U, (I5) 的 单 级 电路 


它 1 .24 所 示 。 EMB 
FAP Mealy FSM 指 代 单 级 结构 Mealy FSM。 它 的 结构 图 如 图 7 示 
- 
的 数量 在 P Mealy FSM 中 决定 为 be 
ts 


i à st (7.38) 
在 P Mealy FSM rp, fU EMBi 执行 微 操作 y, e Y, Hrp Y CY. Mat 


fz 





(7.38) 
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可 以 看 出 ， 应 该 发 生 以 下 条 件 : T l i 
Y nY = O74 4 j;i,j © {1,1} ) 
(7. 39) EMB1 |... | EMB/ 

















WA, RWB AX CK ATR, |p, qe | ' 
cY(-1,) 的 情况 是 可 能 的 。 意 味 着 P mw r ii 


FSM 的 不 同 EMB 会 需要 不 同 数量 的 细胞 。 
因此 ， 它 们 将 会 有 不 同 的 本 值 。 如 果 考 
虑 事实 情况 ， 则 相 比 图 7. 24 中 的 FSM 的 这 个 参数 ，7 可 以 减少 。P Mealy FSM 可 以 
用 作 本 章 讨论 的 所 有 FSM 的 备用 。 


7.6 基于 Moore FSM 的 伪 等 状态 优化 BIMF 


图 7.24 P Mealy FSM 的 结构 图 


Moore FSM 的 一 个 特征 是 存在 伪 等 状态 类 中 。 如 果 相 应 的 顶点 算 子 的 输出 与 
GSA 三 的 相同 顶点 的 输入 相关 ， 则 状态 an, a, e 4 是 伪 等 状态 。 通 过 伪 等 状态 BI， 
0, Bi 类 找到 集 4 的 划分 处 I o 

两 个 方法 可 以 用 于 优化 Moore FSM 的 BIMF。 第 一 种 方法 是 优化 状态 赋值 。 在 
这 种 情况 下 ， 状 态 以 这 样 的 方式 编码 ， 每 个 类 B; TT, FA OR 维 布 尔 空间 的 广义 区 间 
可 能 的 最 小 值 表现 。 第 二 种 方法 是 关于 类 B, e II. 的 编码 。 讨 论 这 两 种 方法 和 相应 
的 基于 EMB 的 Moore FSM 模型 。 

如 下 类 B, e H4, 可 以 从 GSA T, 中 找到 : B, = Lm 
lait, Bie], B = ia,,a.}, By He lasla BME; 2 00 
BS = |B, s Bs| ，1=4。 以 优化 方法 编码 状 LESE 
as @,, ell, 如 图 7. 25 所 示 。 EE ETE I, 

状态 as 的 转换 不 在 结构 表 中 ， 因 为 它们 自动 执 图 7.25 Moore FSM U,(T,) 的 
行 ( 只 使 用 时 钟 脉冲 )。 由 于 此 ， 状 态 as 的 代码 可 优化 状态 代码 
以 视 为 “不 关心 ”"， 对 于 其 他 类 B; e Ty, as 的 代码 
可 以 包括 到 三 次 方 中 。 

如 此 考虑 ， 在 讨论 的 情况 下 ， 如 下 代 
码 可 以 从 类 B; e II, 中 获得 : K(B,) = 
x *0, K(B,) = #01, K(B;) = * 11, 











X 





EMBI : RG I 




















Hub, T, 的 值 不 足以 决定 类 B; e Mo 
在 通常 情况 下 ， 这 个 方法 可 以 导致 PeY 
Moore FSM， 如 图 7. 26 所 示 。 图 7.26 — P; Y Moore FSM 的 结构 图 
在 PEY FSM 中 ，BIMF 表现 为 模块 EMB1。 它 执行 系统 
p = o(T',X) (7. 40) 


模块 EMB2 执行 式 (7.11) 所 示 系 统 。 对 于 执行 这 个 模型 ， 应 该 发 生 以 下 条 件 : 
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Regie V, (7.41) 

Ry 的 值 由 集 T s 了 的 基数 值 决定 。 对 于 PY Moore FSM 提出 的 设计 方法 如 下 : 

1) 构建 状态 集 4; 

2) 优化 状态 赋值 ; 

3) 构建 转换 结构 表 ; 

4) 构建 BIMF 表 ; 

5) 构建 微 操作 表 ; 

6) FSM 逻辑 电路 的 执行 。 

讨论 PLY(CP,) FSM 的 设计 例子 。GSA Dr, -如 图 7.5 所 示 。 令 使 用 的 EMB 有 如 
下 的 配置 32 x1, 16 x2, 8 x4 (位 )。 因 为 R=3。 应 该 选择 配置 8 x4。 但 是 因为 
R+L=4， 对 于 te =4， 细 胞 数量 应 该 等 于 16。 对 于 了 =16, ts =2。 因 此 ， 模 型 PY 
(Ta) 不 能 用 于 所 讨论 的 情况 。 

前 面 两 步 已 经 执行 。 采 用 优化 状态 赋值 给 出 值 Re =2。 现 在 有 2!1? x3 =24 < 
32。 意 味 着 满足 式 (7.40) 所 示 条 件 ， 采 用 模型 PY(T)。 

为 了 构建 PY Moore FSM 的 转换 结构 表 ， 需 要 构建 类 B; e IT, 的 广义 转换 公式 
系统 。 这 个 系统 不 包括 类 B4 e Ma, HARA as eB, 只 与 状态 a e A, 有 关 。 所 以 
以 下 系统 可 以 从 GSA DP, 中 获得 : 


B, — a5; B} 一 05 











(7.42) 
B,— x,a4 V xia, 
Moore FSM PLY(I4) 的 转换 结构 表 为 表 7. 16. 
表 7.16 Moore FSM PLY(I,) 的 转换 结构 表 
B; K(B,) a, K(a,) X, o, h 
Bi * *0 a, 001 l D, 1 
B, * 01 a; 011 xi D,D; 2 
a4 111 x D, D,D; 3 
B, * 11 ds 010 1 D; 4 
327.17 Moore FSM PíY(1,) 的 BIMF X 
K(B,) X o v h 
if. " D, D,D; 
00 0 001 1 1 
00 1 001 2 1 
01 0 111 3 3 
01 1 011 4 2 
10 0 001 5 1 
10 0 001 6 1 
11 0 010 7 4 
11 1 010 8 4 
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BIMF REAJI K(B;), X, P, vo 在 FSM PLYCDS). 的 情况 下 ， 这 个 表 具 有 8 


行 ， 见 表 7. 17。 
表 7. 17 中 的 4 行 对 应 转换 表 的 行 1。 表 7. 
7. 16 和 表 7. 17 中 的 关系 是 显然 的 。 对 于 Moore 


17 中 的 2 行 对 应 转换 表 的 行 4。 表 
FSM U,, ， 微 操作 表 以 相同 的 方式 构 


建 。 在 讨论 的 情况 下 ， 这 个 表 具 有 8 行 ， 见 表 7. 18。 
表 7.18 Moore FSM PLY(I,) 的 微 操 作 表 











K(a,,) Y m 

T,T;T, ViY2¥3 V4 
000 0000 
001 1100 2 
010 0110 3 
011 0010 4 
100 0000 5 
101 0000 6 
110 0000 7 
111 10001 8 


FSM P,YC(I,) WEHE 
路 如 图 7.27 as. BIMF 和 
BMO 的 电路 使 用 EMB 执行 ， 











配置 为 8 x4。 
优化 状态 赋值 执行 之 后 
T =T 的 情况 是 可 能 的 9 E 
这 种 情况 下 ， 可 以 使 用 以 下 图 7.27 Moore FSM PLYCI,) 的 逻辑 电路 
方法 。 
以 有 Rs 位 的 二 进 制 代码 K(B;) 编码 类 B; e IT. 
R = logy! (7.43) 
使 用 变量 rr ez 编码 ， 其 中 1 T1 =Rs。 令 以 下 条 件 发 生 : 
ois sb . Rae Vy 
28 - (N+Rg) & V, (7.44) 
在 这 种 情况 下 ,提出 使 用 PY 
Moore FSM。 它 的 结构 图 如 图 7. 28 所 示 。 7 | EMB2 | 


在 Pc Y Moore FSM rp, {ik EMBI 








E 





对 应 BIMF。 它 执行 输入 存储 函数 系统 
p = P(t, X) (7. 45) 









开始 


时 钟 





模块 EMB2 执行 BMO 电路 。 它 产生 
函数 式 (7. 11) 和 有 和 额外 变量 的 系统 
T= TX) 
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KI 7.28 PCY Moore FSM 的 结构 图 


(7. 46) 
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对 于 PcY Moore FSM 提出 的 设计 方法 具有 以 下 步骤 : 

1) 构建 状态 集 4; 

2) 状态 赋值 ; 

3) 找到 划分 Il, = |B, "B. T ; 

4) 编码 类 B; ell, ; 

5) 构建 转换 结构 表 ; 

6) 构建 BIMF 表 ; 

7) 构建 BMO X; 

8) FSM 逻辑 电路 的 执行 。 

讨论 针对 PcYCP,) Moore FSM 的 设计 例子 。 集 4 具有 M =5 个 元 素 ,，R =3。 
以 简单 方法 编码 状态 a, EA: K(a,) =000,…,，K(as) 2100, 

划分 Ty = 1B1,…,B4| ,7=4。 它 给 定 Rg =2。 以 简单 方法 编码 类 B; e A: 
K(B,) =00, --- K(B,) =11。 

为 了 构建 转换 结构 表 ， 广 义 转换 公式 系统 应 该 从 CSA T; 中 获得 。 在 讨论 的 情 
况 下 ， 这 个 系统 表达 为 式 〈7. 40 ) PcY Moore FSM 的 转换 结构 表 具 有 相同 的 列 ， 
就 像 是 PEY Moore FSM 的 副本 见 表 7. 19。 

表 7.19 Moore FSM PcY(13) 的 转换 结构 表 








B, K(B;) a, K(a,) X, D, h 
B, 00 ay 001 1 D, 1 
B, 01 az 010 xy D, 2 

a4 011 ET D,D; 3 
B, 10 as 100 1 D, 4 


基于 转换 结构 表 构建 BIMF 表 。 在 讨论 的 情况 下 ， 它 表现 为 表 7.20。BMO XR. 
4M, 37.21. t a, e B， 则 行 对 应 状态 a,,， 行 具有 代码 K(B;)。 
表 7.20 Moore FSM P.Y(I,) 的 BIMF X 











K(B;) X o v h 
no x D,D,D, 
00 0 001 1 l 
00 1 001 2 1 
01 0 011 3 3 
01 1 010 4 2 
10 0 100 5 4 
10 1 100 6 4 
11 0 000 v 0 
11 1 000 8 0 
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Qi az mo mnanusee 





3&7.21 Moore FSM P,¥(I,) ifj BMO X 








K(a,,) Y t m 

T,T;T, Y1Y2Y3Y4 TT 
000 0000 00 1 
001 1100 01 之 
010 0010 10 3 
011 1001 10 4 
100 0110 11 3 
101 0000 00 6 
110 0000 00 7 
111 1001 00 8 


Moore FSM Pc Y¥( I’) 的 逻辑 电路 如 图 7.29 所 示 。 在 这 个 电路 中 ，EMB 执行 
BMO， 配 置 8 x6。 执 行 BIMF 需要 相同 的 配置 ,但 是 在 这 种 情况 下 只 使 用 了 三 个 
输出 。 





图 7.29 Moore FSM PLY( 工 ) 的 逻辑 电路 


当然 ,本章 讨 论 的 例子 非常 简单 。 仅 仅 讲述 了 主要 思想 ， 可 用 于 优化 基于 
EMB 的 FSM 的 逻辑 电路 。 
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优化 具有 其 入 存储 块 的 FSM 


摘要 一 一 本 章 将 主要 讲述 基于 EMB 的 FSM 3H x3 446. HA, HH 
Moore 和 Mealy FSM 的 基于 逻辑 条 件 替换 的 设计 方法 都 已 经 讨论 过 了 。 接 下 来 是 提 
出 的 优化 方法 。 这 些 方 法 基于 逻辑 条 件 集 划 分 ,减少 了 逻辑 条 件 蔡 换 模块 电路 中 
LUT 的 数量 。 在 Moore FSM 情况 下 ， 优 化 方法 基于 优化 状态 赋值 并 将 状态 代码 转换 
为 PES 类 的 代码 。 所 有 讨论 的 方法 都 将 举例 说 明 。 本 章 由 作者 和 博士 生 Malgorzata 
Kolopienczyk (波兰 绿 山 城 大 学 ) 一 起 编写 。 


8.1 MP Mealy FSM 的 简单 执行 





|» Y 

(7.12) 决定 的 GHA, 形成 集 P= |Pl， — "LUTe © 
…Pel 。 在 这 种 情况 下 ,使 用 模型 MP p B 
CT) 是 可 行 的 。 它 的 结构 图 见 图 8. 1. | 时 钟 | 
在 MP Mealy FSM 中 ,模块 LUTer 

代表 BRLC， 见 图 7.7 所 示 结 构图 。 它 图 8.1 MP Mealy FSM 的 结构 图 

使 用 FPGA 芯片 的 LUT 器 件 执行 。 式 (7.14). 所 示 LUTer 执行 系统 可 以 表示 如 下 : 
P,-P,X) 


me! 


对 于 某 个 FSM U (Tj), RIAR y P 
FS EMB 


























(8. 1) 
Po PD, 3) 
在 式 (8.1) P, X 包括 由 变量 P。eP 替代 的 逻辑 条 件 x eX。 以 下 关系 很 可 
能 为 真 : 

Y ni # Oli | =, Cf) (8. 2) 
模块 EMB 代表 图 7.7 所 示 BIMF。 它 执行 式 (7.15) 和 式 (7.16) 所 示 系 统 。 
Mealy FSM MP (I) 的 设计 方法 具有 以 下 步骤: 

1) 构建 状态 集 4; 

2) 状态 赋值 ; 

3) 构建 FSM U, (D) 的 结构 图 ; 
4) 逻辑 条 件 替换 ; 
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5) HÆR (8.1) 所 示 系 统 ; 

6) 构建 转换 结构 表 ; 

7) 构建 BIMF X; 

8) 使 用 特定 FPGA 芯片 的 EMB 和 LUT 执行 FSM 逻辑 电路 。 

如 果 发 生 以 下 条 件 ， 则 可 以 应 用 Mealy FSM MP (I;) 的 模型 : 

2 (8.3) 

讨论 针对 Mealy FSM MP (T4) 
的 设计 例子 。GSA Pg 如 图 8. 2 所 示 。 

GSA 由 Mealy FSM 的 状态 标记 ， 
使 用 本 章 参考 文献 [1] 中 的 规则 。 针 
对 Mealy FSM U, (I3), AW F 2 AF 


























参数 可 以 找到 : A= lai, ek P 
M=4, X = EZ y y we | L = 6, J3J4J5 
y= b» SES Ysl, N 26, R= 2s 





Fe if), 751, De 1Dy, Di. Ul 
简单 方法 编码 状态 a,, 6A: K(a,) = 
00, =, K(a,) =11, 

-” 念 使 用 的 FPGA 芯片 有 Vo = 128 
位 ， 存在 如 下 EMB HUE. 128 x1, 64 
x2,32x4, 16 x8 (位 )。 对 于 FSM 
U (D$), 发 生 如 下 关系 : 2^ (R« 
N) =28 x8 =2048 > 128。 这 意味 着 模 
型 U (Te ) 不 能 被 使 用 。 

Mealy FSM U, (T6) 的 结构 表 具 
Æ H, (Ig) =10 行 ， 见 表 8.1。 从 图 8.2 Te 初始 化 算法 图 策略 
表 8.1 可 以 看 出 ， 有 4 个 逻辑 条 件 集 XCan):XCa) 21x, x}, X(a3) = 1x3, 4], 
X(a3) = |xs, x41, X(a4) =Ø. BR, CÆXT G-2, AWARP={P,,/P,|. TÉ 
成 针对 Mealy FSM MP (T6) BBESRARTEEHA GR, 0,36 8. 2。 对 于 给 定 的 例子 ， 式 
(8.3) 所 示 条 件 发 生 。 

对 于 讨论 的 例子 ,在 集 X (an) eX 中 没有 相等 的 逻辑 条 件 。 由 于 此 ， 变 量 
P, eP 的 逻辑 条 件 的 分 布 以 简单 方法 执行 。 如 果 针 (a;) NX (a;) 9, Warm 
应 该 以 这 种 方式 执行 ， 即 每 对 集 X'(g = 1, C) 的 交叉 点 有 最 小 容量 口 ] 。 

以 下 方程 式 系统 可 以 从 表 8.2 中 获得 : 
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表 8.1 Mealy FSM U, (I) 的 结构 表 











a, Klan) a, K(a,) X. Y, o, h 
ay 00 a, 01 x, Yiyz D, l 
a, 01 XX 233 D, 2 
ay 01 Xi X5 ¥3¥aYs D; 3 
ay 01 a, 01 x3 Ya D, 4 
az 10 X3 X4 Y3Y6 D, 5 
a, 01 X34 X4 YaYaYs D, 6 
az 10 a, 11 Xs yaXe D, D, 7 
ay 11 Xs Xe YaY6 D,D, 8 
a, 00 Xs X6 yia E 9 
a4 11 a 00 1 yia = 10 
$8.2 Mealy FSM MP (I) 的 逻辑 条 件 蔡 换 表 
am ay; a, a3 a4 
P, Xi X Xs = 
P, *) %4 X6 = 
P, = Ax V Ax; V Aaxs 
(8.4) 


P, = Aix, V Aoxa V 43x6 


如 果 变 量 4,, (m =1,M) BERERE, R (8.4) 所 示 系 统 变 为 如 
下 形式 : 
p e T Tx, V T Tax; VT Txs 
ae _ a (8.5) 
P, = T, Tax V T,T yx, V T, Taxe 
显然 ,在 Mealy FSM PM (T) 的 情况 下 ， 式 (8.5) 所 示 系 统 代表 式 (8.1) 所 示 
系统 。 对 应 式 (8.5) 所 示 系 统 的 逻辑 电路 应 该 使 用 查找 表 器 件 执行 。 

PM (Tj) 的 转换 结构 表 具 有 所 有 的 列 ， 其 副本 对 于 Mealy U, (T) ÆJ 
X, 由 列 P, 蔡 代 。 转 换 以 非常 明显 的 方式 执行 。 对 于 讨论 过 的 例子 , 转换 生成 
表 8.3。 

# 8.3 是 构建 BIMF 表 的 基础 ，BIMF 具有 如 下 列 : K (an), P, Y, ®, v, 
ho WK (a,) 和 P 形成 细胞 地 址 。 对 于 讨论 过 的 情况 ，BIMF EAA 
V (I's) =16 列 。 表 达 状 态 a, e A 的 转换 的 行 数 且 (P) 的 决定 式 如 下 : 

ACP) = OE (8.6) 
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328.3 Mealy FSM MP (I) 的 转换 结构 表 





am K(a,, ) a, K(a,) P, Y, 9, h 
a, 00 d» 01 P, yis D, 1 
a 01 P,P V293 D, 2 
ay 01 P, P, YaYaYs D; 3 
a 01 ay 01 P, yia D, 4 
az 10 P,P, y3y6 D, 5 
az 01 P, P, Y3Y475 D, 6 
az 10 az 11 P ¥4¥6 D, D, 4 
da 11 P,P, Y4Y6 D, D, 
h 00 P, P, ya RJ 9 
a4 11 ay 00 1 Nn» = 10 


在 讨论 过 的 情况 中 , HCP) = 4 , BIMF 表 为 表 8.4。FSM MP (Ts) 的 逻辑 电路 
表 如 图 8. 3 所 示 。 在 讨论 过 的 例子 中 ， 使 用 有 S = 5 个 输入 的 LUT。 在 这 种 情况 下 ， 
每 个 函数 Ps eP 使 用 单个 LUT 执行 。 在 普通 情况 下 ， 如 果 发 生 以 下 条 件 ， 则 每 个 
函数 P, e 了 使 用 单个 LUT 执行 : 








R +l X81 <S(g = 1,6) (8.7) 
表 8.4 Mealy FSM MP (I) ff BIMF X 
K(a,) P Y o v h 
T, T; P,P, YX1Y2Y3Y4Y5Y6 Dj D; 
00 00 001110 01 1 3 
00 01 011000 01 2 2 
00 10 110000 01 3 1 
00 11 110000 01 4 1 
01 00 001110 01 5 6 
01 01 001001 10 6 5 
01 10 110000 01 7 4 
01 11 110000 01 8 4 
10 00 110000 00 9 9 
10 - 01 000101 11 10 8 
10 10 000101 11 11 7 
10 11 000101 1 13 7 
11 00 110000 00 13 10 
11 01 110000 00 14 10 
11 10 110000 00 15 10 
11 10 110000 00 16 10 
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图 8.3 Mealy FSM MP (Ig) 的 逻辑 电路 


Alle, MP (Te) 的 逻辑 电路 包括 4 片 LUT 和 一 个 模块 EMB。 使 用 2 FH LUT 
执行 RG 电路 。MPY Moore FSM 的 结构 图 如 图 8.4 所 示 。 模 块 LUTer 代表 BRLC, 
模块 EMB1 代表 BIMF, Hik EMB2 代表 BMO, 





图 8.4 MPY Moore FSM 的 结构 图 


在 MP Mealy FSM 的 情况 下 ，LUTer 执行 式 (8.1) Bros. EMBI 执行 式 
(7.15)， 而 EMB2 执行 式 (7.11) 所 示 系 统 。 如 果 发 生 以 下 条 件 ， 则 模型 可 以 
应 用 : 


37V «REV, (8.8) 
25. N & V (8.9) 


Moore FSM MPY (I) 的 设计 方法 具有 以 下 步 又; 

1) 构建 状态 集 A; 

2) 状态 赋值 ; 

3) 构建 FSM U, (D) 的 结构 表 ; 

4) 逻辑 条 件 的 替换 ; 

5) 构建 式 (8.1) 所 示 系 统 ; 

6) 构建 转换 结构 表 ; 

7) 构建 BIMF X; 

8) 构建 BMO 表 ; 

9) 使 用 特定 FPGA 芯片 的 EMB 和 LUT 执行 FSM 逻辑 电路 。 
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讨论 针对 Moore FSM MPY (T3) 
的 设计 例子 。GSA DP; 如 图 8.5 所 示 。 

GSA 由 Moore FSM 的 状态 标记 ， 
使 用 本 章 参 考 文献 [1] 中 的 规则 。 
对 于 Moore FSM U, (r3), WW F4 
它们 的 特性 可 以 找到 : A = | al,…， 
ag], M=6, X={2,, “s x41, £54, 
Y= |y}, N=7, R=3, T= 
7 fost | M S= 1D,, Da Det s 

令 使 用 的 FPGA 芯片 有 Vy = 128 
位 , 令 如 下 EMB 配置 存在 : 128 x1, 
64x2, 32x4, 16 x 8 (位 )。 对 于 
FSM U, (T3), 发 生 如 下 关系 : 
24*® ,R=128 x3 >128。 因 此 ， 这 个 
模型 不 能 用 于 所 讨论 的 情况 。 图 8.5 初始 化 CSA T; 

以 简单 方式 编码 a, e A, BIK 
(a,) =000, =, K(ag) =101。FSM U, (T3) Wat RAA H, (T7) =14 ff, Wh 
# 8.5, 














38.5 FSM U, (I;) 的 结构 表 





an K(a,, ) a, K(a,) X, o, h 
a 000 a, 001 x D, 1 
a, 010 ry D, 2 

ay 011 X, X3 D,D; 3 

4291 ¥2 001 as 100 Xy D, 4 
a, 101 RA D,D, 5 

a, 011 X3 34 D,D; 6 

a3Y3 010 as 100 X3 D, 7 
as 101 3434 D, D; 8 

a, 011 X4 X4 D,D; 9 

a4Y2Y4 011 as 100 X3 D, 10 
dg 101 X44 D, D3 11 

a 011 s D,D, 12 

45 Y3YsY6 100 a 000 1 e: 13 
agYsYa 101 a, 000 1 = 14 


283 


| 基于 FPGA 的 系统 优化 与 综合 


E^ 





(a4) = 125, x41, X(as) 2X(a,) =O. 显然 , C=2, P={P,, Pl. 
检查 式 (8.8) 和 式 (8.9) 所 示 条 件 。 对 于 讨论 的 情况 ， 它 们 是 
25 x3 =96 <128 
23 x7 =56 <128 
意味 着 可 以 使 用 模型 MPY (T3) 
逻辑 条 件 蔡 代表 为 表 8. 6。 


表 8.6 Moore FSM MPY (J,) 的 逻辑 条 件 替 换 表 





y, a ay a3 04 as ag 
P, x X3 X3 X3 = = 
P, x) Xa Wa X4 = = 


以 下 方程 式 系统 可 以 从 表 8. 6 中 获得 : 
P, =A,x, V (A, VA, V44)x3 
Py =A% V (A, VA, V A4 ) x4 (8. 10) 
如 果 变 量 A, eA 由 相应 的 连词 蔡 代 ， 则 对 于 给 定 例子 ， 式 (8.10) 所 示 系 统 
变 为 式 (8.1) 所 示 系 统 。 


Moore FSM MPY (I;) 的 转换 结构 表 以 相同 方式 构建 ， 如 其 副本 对 于 Mealy 
FSM MPY (T;)。 在 讨论 的 例子 中 ， 它 为 表 8.7。 这 个 表 是 构建 BIMF 表 的 





基础 。 
表 8.7 Moore FSM MPY (T) 的 转换 结构 表 

a 000 a 001 P, D; 1 

d 010 P,P, D, 2 

a, 011 P, P, D, D, 3 

ayı y2 001 as 100 P, D, 4 

ag 101 P, P, D, D, 5 

ay 011 P, P, D, D, 6 

azy 010 as 100 Pi D, 7 

a 101 P,P, D, D; 8 

a, 011 P, P, DD 9 

a4Y2Y4 011 as 100 Pi D; 10 

as 101 P, P5 D, D3 11 

a, 011 P, P, D,D; 12 

a5Y3Y5Y6 100 a 000 1 — 13 
667 101 a, 000 1 一 14 
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BIMF 表 具 有 如 下 列 : Klan), P, D, v,ho 在 讨论 的 例子 中 ， 这 个 表 具有 V,( 本) 232 
行 。 使 用 式 (8.6) 可 以 找到 H(P) =4。 对 于 状态 a, s4， 部 分 BIMF 表 为 表 8. 8。 


表 8.8 FSM MPY (J) 的 部 分 BIMF x 








K(a,) P p v h 
71,1, P,P, D, D,D, 
010 00 011 9 9 
010 01 101 10 8 
010 10 100 11 7 
010 11 100 12 4 


FSM MPY (15) 的 逻辑 电路 如 图 8. 6 所 示 。 正 如 前 面 的 情况 ，BRLC 的 电路 使 
HA S=5 个 输入 的 LUT 执行 。 在 这 个 电路 中 ，EMB 配置 为 32 x4 (位 )， 用 于 执 
fr BIMF 人 逻辑 电路 。 因 为 R=3， 所 以 最 高 有 效 数字 地 址 位 等 于 0。 对 于 变量 P| 和 
Py, XX (8.7) 所 示 条 件 是 真 。 由 于 此 ， 只 有 2 片 LUT 在 BRLC 电路 中 使 用 。 





Xi 
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图 8.6 Moore FSM MPY (T) 的 逻辑 电路 


8.2 LUTer 的 优化 


讨论 这 种 情况 ， 即 以 下 条 件 发 生 : 
SA >G+R (8. 11) 
在 式 (8.11) F, fü SA 决定 对 于 给 定 的 tp, EMB 的 地 址 位 数 。 如 果 式 
(8.11) 为 真 ， 则 发 生 以 下 条 件 : 
So = S, -(G+R) >0 (8. 12): 
fü So 等 于 EMB 的 “空闲 ”地 址 输入 数 。 这 些 输入 不 连接 到 变量 T, e 7 或 者 
P,e P。 这 里 使 用 他 们 用 于 LUTer 电路 的 优化 。 
从 MP Mealy FSM 开始 。 集 匀 为 X'UX?, HP RAED FAI: 
xonmndusux ux = X 
ew aS wx? | =k = S, (8. 13) 








Q as rca mamnwses 





用 额外 的 变量 P, e P RREA Y P Y 
LUTer x EMB | $ m 














x,e X, EB MP Mealy FSM， 如 图 IT 
8.7 所 示 。 
开始 人 
在 MoP FSM 中 ，LUTer 执行 逻辑 条 mgh 
lF x e X HR, CDU AE 
EMB 执行 函数 
Y = Y(T, P, X!) (8.15) 
@ = (T, P, X!) (8.16) 


对 于 MoP Mealy FSM 提出 的 以 下 设计 方法 : 

1) 构建 状态 集 4; 

2) 状态 赋值 ; 

3) 构建 Mealy FSM 的 结构 表 ; 

4) Xj4)fE X, REIR X fn Y^; 

5) 替代 逻辑 条 件 x, e X^; 

6) 构建 Mealy FSM MoP (T) 的 转换 结构 表 ; 

7) 构建 BIMF X; 

8) 使 用 给 定 的 FPCA 芯片 执行 FSM 逻辑 电路 。 

讨论 针对 Mealy FSM MoP (T6) 的 设计 例子 ， 其 中 GSA Fe 如 图 8.2 所 示 。 邻 
使 用 的 FPGA 芯片 包括 EMB 有 如 下 配置 : 512x1, 256 x2, 128 x4, 64 x8 (位 )。 
对 于 Mealy FSM U, (7 ) ，N+R=8。 因 此 ， 配 置 64 x8 可 以 使 用 ， 5。 26, 车 R= 
2， 则 可 能 有 G +So =4。 

Mealy FSM U, (I4) 的 结构 表 为 表 8. 1。 以 下 集 可 以 从 这 个 表 中 获得 : X(a, ) 
CX:X(a,) = Lom X5 | , X(a5) = 153, xa | , X(a4) = | Xe, Xe | o f - X(a,,) CX 
31 X(a,) UX(a,)? , HP X(a,)! nX(a,)? 20( m 2 1,M )。 使 用 以 下 规则 找到 
He X Fil X? . 

x = UX (aq)! (8.17) 
x = U X (aq)? (8.18) 


构建 如 下 逻辑 条 件 集 : Ita.) = lut, X (a, J* = 1x5] , ¥(a,)' = {aq}, 2 
(a)? = xa] , X(a4)! = {xs} , X(a;)? = Ixglo 它 导 致 集 x = EZ X3, Xs | , X= 
[X5, X4- X6] 。 显 然 ，C =1。 额 外 的 变量 由 以 下 方程 式 决定 : 

P, = Aix, V Ayx4 V Agxg 

Mealy FSM MoP (I) 的 转换 结构 表 包 括 如 下 列 : an, K (a), a,, K (a) 

Xi, Phs Vn, Oy, h。 在 讨论 的 情况 中 ， 它 由 表 8.9 表示 。 
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38.9 Mealy FSM MoP (I) 的 转换 结构 表 











an K(a,,) a, K(a,) Xi P, Y, o, h 
a, 00 a, 01 x 1 n» D, 1 
a 01 xi P, Y2Ys D, 2 
a, 01 x, P, YsYXaYs D, 3 
a, 01 a, 01 X3 1 yia D, 4 
a, 10 X3 P, ¥3¥6 D, 5 
a, 11 X2 P, Y3Yays D, 6 
a; 10 a, H X3 1 Ya6 D,D, y 
a; 11 X3 P YaX6 D, D; 8 
a, 00 x; P, »» 一 9 
Q4 11 a, 00 l 1 Xa = 10 


BIMF 表 包 括 如 下 列 : Klan), X', P, Y, B, v, ho 前 3 列 创建 EMB 细胞 的 一 
些 地 址 。 这 个 表 包 括 V): 
WC = (8. 19) 
可 以 发 现 V3 (Tg) =64。MoP(T)) 的 每 个 状态 an e A 的 转换 由 Hy (j) 表示 ， 
其 中 
Hy(T,) = 25% (8. 20) 
在 FSM MP (Ig) 的 情况 下 , H,(I4) =16。 对 于 FSM M;P(T4,), 854) BIMF 
表 为 表 8. 10。 这 个 表 包 括 状态 a, e 4 的 转换 。 
FSM MoP (T6) 的 逻辑 电路 如 图 8.8 所 示 。 有 S-5 个 输入 的 LUT 用 于 执行 
LUTer 逻辑 电路 。 在 讨论 过 的 例子 中 ， 对 于 LUTer, 一 片 LUT 足够 ， 两 片 或 多 片 


LUT 用 于 执行 寄存 器 RG。 
表 8.10 Mealy FSM M,P (I) 的 部 分 BIMF X 








K(a,, ) x! P Y ® v h 
T, T, 3 X233 P, YiX2Y3Y4Ys V6 D, D, 
00 000 0 001110 01 1 3 
00 000 1 011000 01 2 2 
00 001 0 001110 ` Ol 3 3 
00 001 1 011000 01 4 4 
00 010 0 001110 01 5 3 
00 010 1 011000 0t 6 2 
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Klan) x! P Y p v h 
T,T; X1X5X3 P, Y1Y2Y3Y4Y5Y6 D,D, 
00 011 0 001110 01 7 3 
00 011 1 011000 01 9 1 
00 100 0 110000 01 10 1 
00 101 0 110000 01 12 1 
00 101 1 110000 01 13 1 
00 110 1 110000 01 14 1 
00 Hl 0 110000 01 15 1 
00 111 1 110000 01 16 1 
x 
x LUTI [Àj 217 IL——» yi 
x 3 2——— J 
T 313) EMB 3——— y, 
4 4 
3 5 
6 
7 
8 







































图 8.8 Mealy FSM MoP (T6) 的 逻辑 电路 


相同 的 方法 可 以 用 于 优化 MPY Moore FSM 的 LUTer。 它 的 结构 图 如 图 8.9 所 
示 。 正 如 前 面 的 情况 ，LUTer 对 应 字母 如 ， 是 “MoPJ"。 在 MoPY Moore FSM 中 ， 
LUTer 执行 式 (8.14) 所 示 系 统 ， 而 EMB1 执行 式 (8.16) 所 示 系 统 。EMB2 执行 
微 操作 系统 Y (T). 
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X P 

- "ILUTer | xi EMB1 
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时 钟 














图 8.9 MPY Moore FSM 的 结构 图 


指出 LUTer 对 应 BRLC, EMBI 对 应 BIMF 和 EMB2 对 应 BMO。 如 果 发 生 以 下 
条 件 ， 则 可 以 使 用 模型 ; 
Zett . R ec Ry (8.21) 
Moore FSM MoPY (I;) 的 设计 方法 包括 以 下 步骤 ; 
1) 构建 状态 集 4; 
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2) 状态 赋值 ; 

3) 构建 FSM PY (I5) 的 结构 表 ; 

4) DRX HTX MX; 

5) 替代 逻辑 条 件 x, 6 X^; 

6) 构建 转换 结构 表 ; 

7) 构建 BIMF 表 ; 

8) 构建 BMO 表 ; 

9) 执行 FSM 逻辑 电路 。 

讨论 针对 Moore FSM MoPY (T3) 的 设计 例子 。 所 有 的 集 和 它们 的 参数 之 前 就 
已 经 找到 。 使 用 内 部 状态 的 简单 代码 天 (ai ) =000, +, K(ag) 2101, FSM U,(I;) 
的 结构 表 ( 见 表 8.5) 同 PY (D;) Moore FSM, 

令 使 用 的 FPGA 芯片 包括 EMB， 配 置 如 下 : 256 x1, 128 x2, 64 x4, 32 x8 
(位 )。 在 这 种 情况 下 ,模型 U, (T1) 不 能 使 用 。 对 于 Moore FSM MPY (T5), 
C=2。 因 此 ，C=2。 所 以 模型 MPY (T7) 可 以 应 用 , 但 是 EMB 的 160 位 不 能 使 

。 尝 试 使 用 模型 MoPY (17). 

X (as) =X (ag) =O, 则 可 以 选择 配置 X (an) CX. 在 这 种 情况 下 
IX'] =1, S, -有 R=3。 因 此 ， 两 种 可 能 的 情况 可 以 使 用 逻辑 条 件 蔡 换 : DC =2, 
Ix'|=1; Qcz1, |X'| 22, AMPH X(a,,) CX:X(a,) 212, x}, X (a) =X 
(a3) 2X(a4) ={x3, x4}, X(a5) 2X(ag) 20, WORX AWE FE: X! 20m, 
x4], X 2|x,, x41 o AH PIPI, 发 现 以 下 方程 式 : 

P, = Ax, V Ag, V Asx3 V Aoi, (8.22) 

Moore FSM U, (D,) 的 结构 表 为 表 8.5。 改 变 它 从 而 得 到 表 8.11, BIMF RA 
64 行 。 每 个 状态 on e A 的 转换 由 8 行 表现 。 部 分 BIMF RHK 8. 12 表现 。 它 表明 
状态 a, e 4 的 转换 。 

表 8.11 Moore FSM MPY (T) 的 转换 结构 








a, K(a,) a, K(a,) x P, o, h 
a,(-) 000 a, 001 1 P, D, 1 
a3 010 X5 P, D, 2 
i 011 rA P, D,D; 3 
ay(yiy2) 001 as 100 1 P, D, 4 
ag 101 Xa P, D,D; 5 
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a, K( am) a, K(a,) bd P, P, 
a4 011 x, P, D,D; 
az (y3) 010 as 100 1 P, D, 
a 101 X P, D,D, 
a, 011 X, P, D,D; 
a4 yaya ) 011 as 100 1 P, D, 10 
a 101 x4 P, D,D; 11 
a 011 xa P, D,D; 12 
as (Y3Ys Y6) 100 a 000 1 1 = 13 
ag (yey7) 101 a, 000 1 1 一 14 


表 8.12 Moore FSM MPY (I,) 的 部 分 BIMF X 











K(a,,) x P p v h 

etl X334 P, D, D,D; 
000 00 0 011 1 3 
000 00 l 001 2 1 
000 01 0 011 3 3 
000 01 1 001 4 1 
000 10 0 010 5 2 
000 10 1 001 6 1 
000 11 0 010 7 2 
000 11 l 001 8 1 


8.3 基于 伪 等 状态 优化 LUTer 


讨论 这 种 情况 ， 即 当 LUT 用 于 执行 LUTer 电路 时 ， 有 S =4。 在 Moore FSM 
MPY (T3) 情况 下 ，LUTer 由 式 (8.22) 表现 。 可 以 表达 为 以 下 形式 : 


BE TT Ty N nE TD VT Tw (8. 23) 
如 果 5=4， 则 式 (8.23) 使 用 函数 解体 的 规则 转换 [5] 。 转 换 方程 式 如 下 : 
Pi zT Tre, VT V To Tans) V TC Tm) (8. 24) 


IÈ (8.25) 对 应 LUTer 逻辑 电路 ， 如 图 8. 11 所 示 。 -— 
在 图 8.11 中 ， 有 4 = T,T 4x, V T,T 3x3 V T, T4x4 , B= T, T4x4 o 这 个 电路 有 
2 个 电 平 ， 使 用 3 HA S=4 的 LUT。 尝 试 提高 这 个 电路 ,使 用 Moore FSM 的 伪 等 


状态 23] 。 
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图 8.10 Moore FSM MoPY (D;) 的 结构 电路 


在 Moore FSM U, (I5) 情况 下 ， 划 分 为 了 = (B, B,,B,} ,其 中 B= 
lail, By ={a,, 5, az}, By, = | a5, asl o 编码 状态 an EA, 正如 图 8. 12 中 一 样 。 





























— A 

T;_| LUTI 
Xi LUT3 
X3 T, | P, 

DT, 

T B T, 

T, — LUT2 
X3 

Al 8.11 LUTer 的 逻辑 电路 ，S =4 图 8.12 Moore FSM U, (T7) 的 优化 状态 代码 


Moore FSM MoPY (I;) 的 逻辑 电路 如 图 8. 10 所 示 。 
现在 ,方程式 (8.22) 可 以 表达 为 
Pi = T, Tx, V Tix, (8.25) 
这 个 方程 式 对 应 单 电 平 逻辑 电路 ， 如 图 8.13a ash xxn 
所 示 。 DEE, kLl 
由 于 等 式 X(as) =X(a6) =Ø, 对 于 函数 Pi, 它 LET | Eom 





们 的 代码 可 以 视 为 “不 关心 ”"。 它 允许 获得 以 下 的 方 Pi Pi 
程式 : e 
P, = Tyx, V Ty, (8.26) 图 8.13 LUTer 的 优化 电路 


式 (8.26) 的 电路 可 以 执行 为 单 电 平 电路 ， 其 至 对 于 $=3 的 情况 ， 如 图 
8. 13b 所 示 。 

如 下 伪 等 状态 类 B; e TTA 的 代码 KCB;) 从 卡 诺 图 中 获得 ( 见 图 8.12): K(B,) = 
*00, K(B,) = * *1, K(B,) = *10。 意 味 着 输入 存储 函数 D, e o 依赖 变量 T, eT', 
其 中 7'C7T。 在 讨论 过 的 情况 中 , T = {T Ts1。 

对 于 Moore FSM， 讨 论 的 方法 基于 优化 状态 赋值 ' 引 。 它 导致 MPsY (T;) 
Moore FSM ( 见 图 8.14)， 其 中 下 角 “E” 表 明示 使 用 优化 状态 赋值 。 
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Fd 8.14 Moore FSM MPeY (T;) 的 结构 图 


在 这 个 模型 中 ，LUTer 执行 系统 


P = P(T, RR) (8. 27) 
EMB 执行 系统 
= G(T", P, X?) (8. 28) 
4 R: = |7'|。 在 这 种 情况 下 ， 如 果 发 生 以 下 条 件 ， 则 提出 的 模型 可 以 使 用 : 
26*58s . R ec y, (8.29) 


提出 的 针对 MyP_Y(I',) Moore FSM 的 设计 方法 具有 以 下 步骤 : 

1) 构建 状态 集 4; 

2) 构建 划分 万 = |B, n. By; 

3) 优化 状态 赋值 ; 

4) 构建 PEY (T;) Moore FSM 的 结构 表 ; 

5) XA E X HFR X! MX; 

6) 替代 人 逻辑 条 件 x, e X ; 

7) 构建 BIMF X; 

8) 构建 BMO #; 

9) 执行 FSM 逻辑 电路 。 

讨论 Moore FSM MsPeY (T3) 的 设计 例子 。 状 态 集 A 之 前 就 已 经 建立 ， 划 分 
II, = (B, 75, B) 也 已 经 建立 。 使 用 图 8. 12 所 示 状 态 代码 。 

为 了 构建 PeY (Tj) Moore FSM 的 结构 表 ， 形 成 转换 的 广义 方程 式 系统 ” 。 
在 讨论 的 情况 中 ， 是 以 下 系统 : 


B, — x,a; V %,x20, V x, X204 
By —> %305 V x4x4,0g V X4 X404 
B} > a) (8. 30) 


Moore FSM PY (T) 的 结构 表 具 有 HH (T1) =7 行 , 见 表 8.13。 表 具有 如 
FS: B;, K(B;), a,, K(a,), X, D,, ho 28 B; e II, 的 代码 K(B;) 来 自 图 8. 12, 状 
态 a, eA 的 代码 也 来 自 图 8. 12。 
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#2 8.13 Moore FSM PY( 三 ) 的 结构 图 














B; K(B;) a, K(a,) X, ®, h 
B, * 00 a 001 X, D, 1 
a3 011 Xx, D,D; 2 
ay 101 X, £2 Di D, 3 
B * x] as 010 X D, 4 
dg 110 X414 D,D, 5 
4 101 X3 X4 D,D; 6 
B, «10 a, 000 1 = 7 


令 使 用 的 FPGA 芯片 有 EMB ,配置 如 下 :128 x 1, 64 x2, 32 x4, 16 x8( 位 )。 因 
A R=3, 所 以 对 于 执行 BIMF 电路 ,应 该 选择 配置 32 x4。7T' = 17, 73), At 
RE =2。 对 于 给 定 配置 ， 有 SA =5。 意 味 着 3 个 输入 可 以 用 于 逻辑 条 件 x, e X! 和 额 
外 的 变量 P, e P。 使 用 以 下 逻辑 条 件 集 划 分 和 :8 = |x, x4}, X= lx, x3|。 给 出 
集 忆 = | P | 。 使 用 表 8. 13， 可 以 发 现 以 下 方程 式 : 
P, = Bix, V Box, = T, Tax, V Tax, (8.31) 
令 X(B;) 为 逻辑 条 件 集 ,决定 状态 a, e B;( i = 1,7) 的 转换 。 因 为 X(B3) 2 0, 
所 以 状态 as, ag © B 的 代码 可 以 视 为 “不 关心 "。 对 于 给 定 例子 , 它 给 出 式 
(8.27) 所 示 系 统 的 最 终 形式 : 
P, = T4x, V T4x, (8. 32) 
Moore FSM MEPeY 的 转换 结构 表 具 有 如 下 列 : B;, K(B;) , a, K(a,), P,, Xj, 
D, hs 在 讨论 的 情况 下 ， 它 为 表 8. 14. 


表 8.14 Moore FSM MEPeY (I>) 的 转换 结构 表 








B, K(B,) a, K(a,) P, Xj, P, 
B, * 00 a 001 P, 1 D; 
a 011 P, X D,D; 2 
a, 101 P, x D, D; 3 
B, * xl as 010 P, l D; 4 
as 110 P, X, D, D; 5 
a, 101 P, X4 D, D; 6 
B, * 10 a, 000 1 1 = 7 


Moore FSM M;P,Y 的 BIMF 表 具 有 如 下 列 : K(B;), P, X', ©, v, ho WK 
(B;), P, X! 创建 EMB 的 内 部 细胞 地 址 。 在 讨论 的 情况 中 ， 每 个 类 B, e IT, 的 转换 
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3 8.15 Moore FSM MPY (I) 的 部 分 BIMF X 














K(B,) P x o v h 
TT, Pi X3X4 D, D,D, 
00 0 00 101 1 3 
00 0 10 011 3 2 
00 0 11 011 4 2 
00 1 00 001 3 6 
00 1 01 001 6 1 
00 1 10 001 Kt 1 
00 1 11 001 8 1 


对 于 给 定 的 GSA，BMO 表 总 是 一 样 的 。 它 具有 列 K(a, ),Y,m。 细 胞 地 址 由 状 
ARE K(a, ) 决 定 。 令 使 用 的 FPGA 芯片 包括 有 S=3 的 LUT。 在 这 种 情况 下 , Jr 
程式 (8.32) 需要 单个 LUT 用 于 执行 。FSM MP (T3) 的 逻辑 电路 如 图 S. 15 
所 示 。 



























































图 8.15 FSM MEePeY (T3) 的 逻辑 电路 


由 于 最 优 状 态 编码 ，BRLC 电路 使 用 单个 有 5 =3 的 LUT 执行 。 为 了 执行 方程 

st (8.25) 和 3 输入 的 LUT， 它 应 该 解体 ， 如 下 : 
P, = TO, Tax) V T UST). V BD V T5%3)) 
= T,A V T,(T)B V-™C) =T,A VTD 

这 个 方程 式 对 应 电路 有 3 层 , 由 5 片 LUT 形成 ， 如 图 8. 16 所 示 。 

因此 ， 提 出 的 方法 5 次 减少 BRLC 硬件 ， 并 3 次 增加 传播 时 间 。 当 然 ， 只 对 给 
定 例子 为 真 。 有 时 候 优化 状态 编码 是 不 可 能 的 931 。 在 逻辑 条 件 替 代 的 情况 下 ， 它 
可 以 导致 BRLC 的 硬件 总 量 和 传播 时 间 都 增加 。 在 这 种 情况 下 提出 了 以 下 方法 。 

用 有 Rs 位 的 二 进 制 代码 K(B;) 编码 每 个 类 Bi eMM: 


Ry = log)! (8. 33) 
对 于 编码 ， 使 用 变量 tr e Tr， 其 中 17! = Rp。 
令 以 下 条 件 发 生 : 
2n(N + Rg) < V (8. 34) 
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图 8.16 BRLC 的 逻辑 电路 基于 简单 状态 代码 





在 这 种 情况 下 ， 提 出 使 用 McPcY Moore FSM。 它 的 结构 图 如 图 8. 17 所 示 。 在 
这 个 FSM 中 ，LUTer 执行 额外 的 变量 
P = P(t, X) (8. 35) 








Fd 8.17 Mc; PY Moore FSM 的 结构 图 


模块 EMB1 执行 输入 存储 函数 
P = P(t, X', P) (8.36) 
模块 EMB2 执行 微 操 作 y, e Y MABE 
t= 1(7) (8. 37) 
如 果 式 (8.22) 的 条 件 和 以 下 条 件 一 起 发 生 ， 则 提出 的 模型 可 以 应 用 : 
2689s .R < y, (8. 38) 


提出 的 针对 McPeY Moore FSM 的 设计 方法 具有 以 下 步 驴 ; 
1) HERSE A; 

2) 构建 划分 II, = (Bi, 75, Bi}; 

3) 状态 赋值 ; 

4) 编码 类 B; e IT, ; 

5) 构建 PcY Moore FSM 的 结构 表 ; 

6) UDE X HTE X MX; 
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7) EEGERARTE x, e X^ ; 

8) 构建 转换 结构 表 ; 

9) 构建 BIMF 表 ; 

10) 构建 BMO X; 

11) 执行 FSM 逻辑 电路 。 

讨论 针对 FSM McPcY (Te) 的 设计 例子 。GSA Ts 如 图 8. 18 所 示 。 


<x > 
<a> 
ike” dp 
0 
















图 8.18 初始 化 GSA Ts 


XJF FSM U, (74), ， 有 如 下 集 和 参数 : 4= |al,…, ag}, M=8, X= |x n, 
Met bad, Y= ly, tel ,Nz6,R23,72517;,7,,0551, BH 1D; DaDo 

针对 Moore FSM U, (I3) 的 划分 五 可 以 找到 有 = | By, By} , HF B = 
lal, B, = |a, a3, az}, B4 = las, s , az}, B, = lagi. BF 1-4, Ry 22, 如 
果 任 何 B; e IT, 类 表现 为 单个 及 维 布尔 空间 的 广义 区 间 , 则 状态 赋值 视 为 优化 。 
对 于 Moore FSM U, (74) , 不 可 能 找到 这 样 的 结果 。 因 此 , 以 简单 方法 编码 状态 an 
€A:K(a,) 2000, =, K(ag) =111。 

由 于 Rpg =2, A TS {Ty » T2 | o 以 简单 方法 编码 类 B; e IT, :K( B, ) z00,.,K 
(By) =11。 没 有 必要 用 结构 表 表现 状态 as € By 的 转换 。 在 D fli d RU T, X 
样 的 转换 自动 执行 (只 使 用 时 钟 脉冲 ) o | 
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因此 ， 代 码 11 可 以 视 为 “不 关心 ”的 输入 赋值 。 它 可 以 用 于 最 小 化 FSM 逻辑 
电路 。 

为 了 构建 Pe 了 Moore FSM 的 结构 表 ， 有 必要 构建 转换 的 广义 公式 系统 。 在 讨论 
的 情况 下 ， 这 个 系统 如 下 : 


By, 一 XiQ2 M xx,04 V x, x5a4 








B, —* X405 V X43X405 V X 4X404 
B,— x,a4 V Xaxsag V X4 X504 (8. 39) 


在 式 (8.39) 所 示 系 统 中 ， 类 B, e II, 没有 公式 。 
式 (8.39) 所 示 系 统 具 有 Ho (Ps) =9 个 参数 。 显 然 ，Moore FSM PcY (Ts) 
的 结构 表 有 9 行 ， 见 表 8. 16。 
表 8.16 Moore FSM PcY (Ts) 的 结构 表 





B, K(B;) a, K(a,) X, ®, h 
B, 00 az 001 X D, 1 
a 010 a D, 
az 011 mE D,D; 3 
B, 01 as 100 X3 D, 4 
a 101 ee D, D, 5 
a, 110 ie D,D, 6 
B, 10 as 100 X4 D, 8 
dg 111 waas D, D, D; 8 
d; 110 Was D,D, 9 


使 用 FPGA 芯片 包括 EMB， 具 有 如 下 配置 : 256 x1, 128 x2, 64 x4, 32 x8 
(位 )。 在 (T) 的 情况 下 ， 有 必要 使 用 EMB， 22?** x3 =6144 fiz, BR, 
逻辑 条 件 蔡 代 应 该 用 于 讨论 的 情况 。 

在 讨论 的 情况 下 ， 有 R=3。 意 味 着 必须 使 用 配置 64 x4。 因 为 Ry =2。EMB 
有 Ss -Ssp=6-2=4 个 空 闪 输入 。 它 给 出 1X11 =3, 1351 22, G=1。 HÆ X RWA 
X'UX, HHY = |x, x, x}, XE ft, Hho 

形成 针对 Moore FSM MePeY (Ts) 的 逻辑 条 件 替 代表 ， 见 表 8.17. 

表 8.17 Moore FSM Mc;PcY (T3) 的 逻辑 条 件 替 换 表 
B, B, B, B, B, 





P; Xi X4 X4 = 


以 下 方程 式 可 以 从 表 8. 17 中 获得 ， P, = Bix; V Bx, V Bax, = Ti TX} V T17%4 
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V Ti 72x4 。 这 个 方程 式 可 以 作为 单 电 平 执行 ， 使 用 S$>4 的 LUT。 由 于 类 B; e I, 
的 合适 编码 ， 所 以 方程 式 可 以 简化 。 例 如 ， 如 果 天 (Bi ) =00, K(B,) =10, 
K(B,) =11, K(By) =01， 则 以 下 方程 式 Pl = 0x, V rix, 可 以 使 用 单 片 有 3S =3 个 
输入 的 LUT 执行 。 








表 8.18 Moore FSM McPcY (I,) 的 转换 表 








B, K(B,) a, K(a,) xi P, ®, h 
B, 00 ay 001 1 P, D, l 
a, 010 x P, D 2 
a, 011 Ta P, D,D, 3 
B, 01 as 100 X3 1 D, 4 
ds 101 X3 P, D, D; 5 
a 110 X4 P, D, D, 6 
B, 10 as 100 1 P, D, 7 
dg 111 Xs P, D, D,D; 8 
a, 110 Xs P, D, D, 9 


McPcY FSM 的 转换 结构 表 有 如 下 列 : Bi, K(B;), a,, K(a,), Xi, Pr, 
$,, ho XIF Moore FSM M;PcY (Ts), 它 是 表 8.18, BIMF 表 有 相同 的 列 ， 
E] MPY FSM。 在 讨论 的 情况 下 ,每 个 Bi eM, 的 转换 由 表 的 16 行 表现 。 表 
BMO 有 如 下 列 : K(a,), Y, K(Bj)), m, 9I K(B;) ABB, e IIT, 的 代码 ,这样 
Mik, a, eB; (Xll fT2X m) , TE Moore FSM McPcY (T) 的 情况 下 ， 这 个 表 
A M=8 47, W819, 

38.19 Moore FSM McPcY (Ts) 的 BMO X 








K(a,,) Y K(B;) m 

T,T,T; Y1Y2Y3Y4Y5 Y6 T172 
000 000000 00 1 
001 110000 01 2 
010 001100 01 3 
011 000011 01 4 
100 101000 10 5 
101 010101 10 6 
110 001100 10 7 
111 101000 11 8 


FSM McPcY (Ts) 的 逻辑 电路 如 图 8. 19 所 示 。 
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x LUTI l LP: T, fy i> yY 
g 1 x2— : EMB 2 D; LUT2 Tə 5 EMB 2[—* y 
: F p, | LUT3 3—7*» 
4 3 3 Ti |3 4—* y, 
a 2 4 LUT4 5 y, 
1 开始 y n 

时 钟 

















图 8.19 Moore FSM McPcY (T) 的 逻辑 电路 


8.4 ”基于 微 操 作 集 编码 优化 LUTer 


三 种 方法 可 以 用 于 优化 Mealy FSM 的 BRLC 电路 。 第 一 种 方法 基于 划分 集 X。 
第 二 种 关系 特定 状态 赋值 。 第 三 种 基于 逻辑 条 件 编码 。 

以 MoP Mealy FSM 的 方法 一 样 划 分 集 X 为 子 集 X, Xo ESS MPY Mealy 
FSM， 如 图 8. 20 所 示 。 


xj P Z 
LUTer| xXx EMBI1| 5 T EMB2 
> RG 
开始 
时 钟 
































图 8.20 MPY Mealy FSM 的 结构 图 


在 这 个 FSM 中 ，LUTer 执行 式 (8.14) 所 示 系 统 。 模 块 EMB1 执行 式 (8. 16) 
所 示 系 统 和 具有 额外 变量 的 系统 


Z=2Z(T,P,X') (8. 40) 
模块 EMB2 执行 微 操 作 ysY， 由 以 下 系统 表现 : 
Y = Y(Z) (8.41) 


对 于 My PY Mealy FSM 的 情况 ， 应 该 发 生 以 下 条 件 : 


2699 (R + Ry) < V, 


(8. 42) 
25s * N = Vo 
提出 的 针对 Mealy FSM MoPY (T) 的 设计 方法 具有 以 下 步骤: 
1) 构建 状态 集 4; 
2) 状态 赋值 ; 
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3) 构建 FSM U, (I) 的 结构 表 ; 

4) arse X HFS X! Jn X^; 

5) 替代 逻辑 条 件 x e X^; 

6) 编码 微 操 作 集 ; 

7) 构建 转换 结构 表 ; 

8) 构建 BIMF 表 ; 

9) 构建 BMO X; 

10) 执行 FSM 逻辑 电路 。 

讨论 针对 Mealy FSM MoPY( T) WII PIF. GSA Dy 如 图 8.21 所 示 。 如 下 集 
和 参数 可 以 为 Mealy FSM U, (To) 找到 : X={x,, + 45}, L=5, Y=|yi1,…Yyio1， 
N=10, A =|, a5}, M=6, R=3, T={T,, T,, T4], ®= 1D, Dj, DV. W 
简单 方式 执行 状态 赋值 K(al ) 2000,--,K(ag) 2101, FSM U, (To) 的 结构 表 具 
A H (To) 21211, Wi 8.20, 














图 8.21 初始 化 GSAT, 
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58.20 Mealy FSM U, (13) 的 结构 表 








Qn K(a,, ) a, K(a,) X, Y, D, h 
a 000 ay 001 xX yiYays D; 1 
ay 001 Xp X3 Y3Y9 D, 2 
a, 010 EA Yaya D, 3 
ay 001 as 100 x YaXsYio D, 4 
dg 101 X 1X3 ¥3¥9 D,D; 5 
a, 011 X, X3 ya3ys D,ys 6 
a; 010 a, 011 1 ¥3¥5 D,D; 7 
ay 011 dg 101 1 yia xs D,D; ^" 
as 100 ay 001 x4 Yi YaYg D, 9 
ay 000 X4 ysy7 — 10 
dg 101 d, 000 Xs — m 1 
a4 011 Xs Ysys D,D; 12 


令 使 用 的 FPCA 芯片 包括 EMB ， 有 如 下 配置 : 512 x1, 256 x2, 128 x4, 64x 
8, 32 x16 (位 )。 为 了 执行 FSM U, (To) 的 电路 ， 有 必要 V = 2° x 13 =3328 
(位 ) 。 但 是 使 用 的 EMB 只 有 512 位 。 最 少 七 个 模块 用 于 执行 FSM 逻辑 电路 。 因 
此 -应 该 使 用 逻辑 条 件 替 换 。 

Æ GSA Dy WEP, AT) =7 个 不 同 的 微 操 作 集 。 它 们 如 下 : Yi 20, Y = 
lis yas Ygl, Ya = lys, Yol, Ya = lys Yal, Ys = lys, Ysl, Yo oda, Y6sY10] » 
Y; 2|y;, y;l Ry =3 PEE z, e Z 用 于 这 些 集 的 编码 是 足够 的 。 

HHP R+Ry =6， 因 此 应 该 选择 配置 64 x8，SA =6。 它 给 出 G=1，50o =2; Al 
fk, [X1 =B, LÐ | 83, 

EXHX=XUX, HX = 12,0], X = |x, x4, xs] 0 X F FSM MP7 
(To), 3E SRARTEBUEHÁR GR ULE 8. 21, 


428.21 Mealy FSM MPY (I5) 的 逻辑 条 件 蔡 换 








以 下 方程 式 可 以 从 表 8. 21 中 获得 : 7 
Pi = T, Tox, V TTT x, V T, T.T3xs. (8. 43) 
LUTer 电路 要 求 LUT 有 $26 个 输入 。 
使 用 微 操 作 集 又 es 了 的 编码 ， 以 简单 方法 KCY,) 2000, =, KCY;) 2110, BE 
在 ， 可 以 构建 Mealy FSM MoPY (I5). KERER. KRAZ an, Klan), ap, K 
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(a,) , Xi, Phs Zu, du, ho WZ, 具有 额外 的 变量 zs e Z, ERE KO) PEF 1, 
写 人 表 中 的 第 h 行 。FSM MPY (D). 的 转换 表 为 表 8. 22。 这 个 表 是 构建 BIMF X 
的 基础 。 


表 8.22 Mealy FSM M,PY (Dy) 的 转换 表 








Gn K(a,, ) a, K(a,) x P, Zi P, h 
a, 000 ay 001 X) P, 23 D, 1 
a, 001 X P, 2j D, 2 
a; 010 1 P, 224 D, 3 
a, 001 as 100 1 Pi 2123 D, 4 
dg 101 x3 P, 了 D, D, 5 
a4 011 X, P, z D,D; 6 
a; 010 a4 011 1 1 z D, D; 7 
a4 011 ag 101 1 1 z; D, D; 8 
as 100 a, 001 1 P, 2 D, 9 
a, 000 1 P, 2122 — 10 
6 101 ài 000 1 P, -= — 11 
a, 011 1 P, z D, D, 12 





BIMF 表 具 有 如 下 列 : K (a,), P, X , Z, 6, v、h。 在 讨论 的 情况 中 ， 每 个 
状态 a, e 4 的 转换 表现 为 BIMF RH 8 行 。 部 分 这 个 表 为 表 8.23。 它 描述 状态 
a eA 的 转换 。 

表 8.23 Mealy FSM M,PY (I) 的 部 分 BIMF 表 











K(a,, ) P x Z P v h 

T,T,T, Pi X3 X3 X1X5X3 D, DD, 
000 0 00 011 101 1 3 
000 0 01 011 101 2 3 
000 0 10 011 011 3 3 
000 0 11 011 011 4 3 
000 1 00 010 001 5 2 
000 1 01 010 001 6 2 
000 1 10 001 001 7 1 
000 1 11 001 001 8 1 
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328.24 Mealy FSM M,PY (I',) 的 BMO X 


KCY,) Y t 

212523 n Y2 ys Y4 Ys Ys 5: Ys Yo Yio 
000 0 0 0 0 0 0 0 0 0 0 1 
001 1 1 0 0 0 0 0 1 0 0 2 
010 0 0 1 0 0 0 0 0 1 0 3 
011 0 1 0 1 0 0 0 0 0 0 4 
100 0 0 1 0 1 0 0 0 0 0 $ 
101 0 0 0 l 0 1 0 0 0 1 6 
110 0 0 0 0 1 1 0 0 0 7 
111 0 0 0 0 0 0 0 0 0 0 8 


令 使 用 的 FPGA 芯片 有 5S =4 的 LUT。 意 味 着 表达 式 (8.43) 应 该 变 为 以 下 
形式 : 
P, = T,Tax , VT(D Tx, V TT) = AV TB (8.44) 
表达 式 (8.44) 对 应 BRLC 电路 ， 如 图 8. 22a 所 示 。 由 于 特定 状态 赋值 ， 所 以 
BRLC 电路 中 LUT 的 数量 可 以 减少 4] 。 在 这 种 情况 下 ， 集 4 表现 为 41U4?。 集 4! 
包括 状态 an e 4 中 的 条 件 转换 和 初始 状态 a, s4。 集 包括 状态 an e 4 中 的 无 条 
件 转换 。 状 态 赋值 开始 于 状态 an A'o RAS a, e A! 的 代码 Ka, ) 对 应 十 进 制 数 
0-M, -1, 其 中 1 AI =M,. 








b) 


图 8.22 BRLC 的 逻辑 电路 
a) 对 于 Mealy FSM MoPY (D;) b) 对 于 MEPY (Ly) 


Ry 个 变量 T, e T 用 于 编码 状态 an e A! 是 足够 的 ， 其 中 
Rg = log; M, (8.45) 
Æ FSM U, (T3) 情况 下 ， 有 如 下 集 : 4! = jal, a. as, as},  21a4, a4}. 
有 Re =2， 因 此 可 以 只 使 用 状态 变量 T, 和 7 决定 状态 a, e 4A' ， 如 图 8.23 所 示 。 
这 个 方法 导致 MePY Mealy FSM。 其 结构 图 如 图 8. 24 IRo Æ T CTEK Re 
个 变量 。 


303 
FE 





© 基于 FPGA 的 系统 优化 与 综合 











图 8.23 Mealy FSM U, (To) 的 特殊 状态 赋值 结果 





























x H Z >| sil 
LUTer| x “EMBI| 5 7 |EMB2 
RG 
| 开始 
T T 时 名 | 





图 8.24  M,PY Mealy FSM 的 结构 图 


MoPY 和 M, PY FSM 唯一 的 不 同 是 系统 了 减少 了 。 在 后 一 种 情况 ， 额 外 的 变量 
由 以 下 系统 表现 : 


P = P(T’, X,) (8. 46) 
在 讨论 的 情况 下 ， 以 下 方程 式 可 以 由 函数 P, e P 找到 : 
P, = Tx, V Ty Tx, V DTxs = Tox, VC (8. 47) 


对 于 Mealy FSM M,PY (To) 的 BRLC 的 逻辑 电路 如 图 8. 22b 所 示 。 它 要 求 比 
其 副本 对 于 MoPY (To) 21.5 倍 的 LUT。 

MoPY 和 MEPY FSM 的 唯一 不 同 是 不 同 状 态 的 赋值 减少 了 。 对 于 MEPY Mealy 
FSM， 应 该 执行 特定 状态 赋值 。 

如 果 C=1， 则 可 以 采用 逻辑 条 件 编码 的 方法 。 令 符号 XCP) 代 表 由 变量 P) eP 
代替 的 逻辑 条 件 集 。 有 Ri 个 变量 对 于 逻辑 条 件 x e X(P) 编 码 是 足够 的 : 

R, = log; | X(P) | (8. 48) 
对 于 逻辑 条 件 编码 ， 使 用 变量 b, EB。 这 个 方法 导致 McPY Mealy FSM， 如 图 


8.25 所 示 。 
x] P 
LUTer| x! EMB1 


vs 
B 
i £ 


图 8.25 MeP7 Mealy FSM 的 结构 图 





























在 McPY Mealy FSM 中 ，LUTer 执行 系统 
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P-P(B,X) (8. 49) 
模块 EMB1 执行 式 (8.16) 和 式 (8.40) 所 示 系 统 
B = B(T, P, X') (8. 50) 


模块 EMB2 执行 式 (8.41) 所 示 系 统 。 

Mealy FSM McPY (I;) 的 设计 方法 包括 MoPY FSM 的 设计 方法 的 所 有 步骤 。 
但 是 逻辑 条 件 的 编码 在 它们 的 替代 步骤 前 执行 。 讨 论 Mealy FSM McPY (D$) 的 设 
计 例 子 。 

UR 1 ~4 ERT AR XP) =X = x,, x4, x5}, Lp 23. BRAT 
EH Ri =2 个 变量 编码 。 它 给 出 集 B= |b; bs|。 以 如 下 方式 编码 逻辑 条 件 : 天 
(x,) 200, K(x,) 201, K(xs) =10。 对 于 模块 BRLC， 给 出 了 以 下 方程 式 : 

P, = b; box, V byx, V byxs =AVC (8.51) 
编码 微 操 作 集 ， 正 如 编码 MPY( To )。 

McPY Mealy FSM 的 转换 结构 表 具 有 其 副本 对 于 MoPY Mealy FSM 的 所 有 列 。 
它 包 括 变量 5, eB 等 于 1 的 列 B,， 在 表 的 第 h 行 的 代码 K(x,) 中 。 

Mealy FSM McPY (Dy) 的 转换 结构 表 为 表 8.25. BIMF 表 有 人 额外 的 列 B 和 
K(x,) o BMO 表 同 Mealy FSM MoPY(T)。Mealy FSM McPY (To) 的 逻辑 电路 如 
图 8. 26 所 示 。 

表 8.25 Mealy FSM McPY (1) 的 转换 结构 表 








Qn, K(a,,) a, K(a,) Xi, P, Z, B, o, h 
d, 000 a 001 x2 P, 23 = D, 1 
a, 001 X3 P, 2 = D, 2 
à, 010 1 P, 232, 一 D, 3 
a, 001 as 100 1 P, zz, = D, 4 
dg 101 X3 P, E — D, D3 5 
a4 011 X3 P, ži — D,D; 6 
1 010 ay 011 1 1 ži = D, D, 7 
ay 011 [^ 101 1 1 23 — D, D, 8 
as 100 a 001 I P, 3 b; D, 9 
a, 000 1 P, 2125 b; =E 10 
ds 101 a, 000 1 P, — b, = 1 
a4 011 1 P, E b, D, D, 12 


如 果 以 下 条 件 发 生 ， 则 可 以 使 用 这 个 方法 : 

2896 (R + Ry + RL) < Vo (8.52) 
WR G >1， 则 来 自 不 同 集 X(P, ) 的 逻辑 条 件 应 该 使 用 不 同 变 量 b, e B 编码 。 
4 X(P,) CX 是 逻辑 条 件 集 ，RI 个 变量 是 足够 的 ， 其 中 
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[8 8.26 Mealy FSM McPY (I) 的 逻辑 电路 
RẸ = log; | X(P,) | (8. 53) 
它 给 出 值 R= RI + Ri +… + RE. 这 个 值 应 该 用 于 式 (8. 52)。 
逻辑 条 件 编码 应 该 用 于 优化 Moore FSM 的 BRLC。 在 这 种 情况 下 ,代码 K(x) 
应 该 加 到 微 操作 和 集 。 它 导致 McPY Moore FSM, WEI 8.27 所 示 。 


x P 
pg |LUTer EMBI 


图 8.27 Moore FSM 的 结构 图 
这 个 方法 可 以 和 优化 状态 赋值 一 起 使 用 ， 也 可 以 和 伪 等 状态 类 编码 一 起 。 在 本 
章 不 讨论 这 些 方 法 。 
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摘要 一 一 本 章 主要 使 用 数据 通路 来 减少 基于 FPGA 的 Moore FSM 逻辑 电路 中 
LUT 的 数量 。 首 先 ， 提 出 内 状态 转换 操作 执行 的 准则 。 它 基于 操作 器 件 的 使 用 
(加 法 器 、 计 数 器 、 位 移 器 等 )， 计算 转换 状态 的 代码 。 其 次 ,讨论 具有 内 状态 转 
换 操 作 执行 的 FSM 组织。 给 出 了 应 用 所 提出 方法 的 实例 。 再 次 ， 提 出 具有 内 状态 
转换 操作 执行 的 Moore FSM 综合 进程 的 基本 结构 。 综 合 进程 结构 依赖 初始 条 件 ， 比 
如 操作 集 或 FSM 状态 代码 。 讨 论 操作 自动 执行 转换 的 典型 结构 。 再 次 ， 该 方法 基 
于 传统 和 建议 方法 的 混合 来 计算 状态 转换 代码 。 本 章 最 后 将 讨论 提出 的 解决 方法 的 
有 效 性 。 本 章 由 作者 和 博士 生 Roman Babakov ( £j 2T 34 € XX) 一 起 
编写 。 


9.1 转换 操作 执行 的 概念 


FSM 设计 的 经 典 方法 的 基础 由 Viktor Glushkov 提出 ， 是 结构 综合 的 权威 方法 。 
根据 这 个 准则 ，BIMF 的 逻辑 电路 由 布尔 函数 系统 (System Boolean Function, SBF) 
表现 。 在 这 个 系统 中 ， 状 态 变 量 和 逻辑 条 件 通 过 布尔 操作 连接 ， 比 如 否定 、 连 词 、 
析 取 。 

用 SBF 表现 逻辑 电路 相当 方便 ， 因 为 对 应 的 综合 方法 和 不 同 的 优化 技术 都 深 
刻 地 研究 过 。 对 应 不 同 的 逻辑 器 件 〈 门 、PAL、PLA、CPLD 、FPCA 等 ) 有 不 同 的 
AME! 。 现 代 CAD 工具 支持 基于 布尔 函数 的 综合 。 而 且 ， 大 量 工业 CAD 包 都 
有 最 小 化 逻辑 电路 的 圣人 工具 5021。 

使 用 SBF 执行 BIMF 电路 应 该 考虑 到 以 下 特色 : 

(1) 如 果 内 状态 转换 数 增 加 ， 则 SBF 复杂 性 增加 。 内 状态 转换 数量 增加 会 导 
致 执行 的 SBF 中 乘积 项 的 数量 增加 ， 每 个 乘积 项 的 内 容 也 将 增加 。 它 与 状态 变量 
数量 的 增加 相关 ， 因 为 每 个 状态 的 状态 代码 独一无二 。 硬 件 总 量 增 加 和 GSA 参数 
增加 是 自然 进程 ， 这 个 事件 可 以 部 分 补偿 ， 是 由 于 采用 不 同 的 优化 方法 优化 
FSML 7 2 。 在 一 些 情况 下 ， 它 可 以 获得 分 析 GSA 参数 的 独立 性 和 执行 相应 FSM 电 
路 需要 的 逻辑 器 件 的 数量 。 例 如 ， 它 可 以 对 于 PAL 或 PLA 完成 。 

(2) SBF 的 准确 最 小 化 可 以 通过 对 所 有 可 能 方法 的 完整 计数 来 执行 。 正 如 所 
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知 ， 这 个 问题 是 NC 完整 的 ， 寻 找 准 确 的 解决 方法 是 非常 消耗 时 间 的 任务 03] A 
许多 探索 的 方法 可 以 减少 计数 量 ， 但 它们 不 能 保证 找到 最 优 方法 1 。 

考虑 用 提出 的 概念 方法 构建 BIMF。 如 果 一 些 条 件 发 生 ， 则 这 个 方法 允许 限制 
BIMF 逻辑 电路 的 复杂 性 随 着 FSM 转换 的 数量 增加 。 | 

控制 单元 的 主要 目标 是 通过 进入 某 个 数字 系统 的 数据 通路 (操作 自动 )， 产 生 
微 操作 集 的 合理 顺序 。 这 个 顺序 由 特定 GSA 决定 ， 代 表 执 行 某 个 任务 的 控制 算法 。 
操作 自动 (Operational Automation, OA) 执行 需要 的 数据 进程 。 为 了 实现 它 ， 使 用 
了 一 些 操作 模块 ， 比 如 加 法 器 、 乘 法 器 、 移 位 器 等 。 通 常 ，FSM 使 用 布尔 函数 或 
者 真 值 表 处 理 逻 辑 条 件 。 例 如 ， 转 换 地 址 由 对 应 微 程序 控制 单元 的 控制 存储 表 来 表 
现 ， 微 程序 控制 单元 具有 强制 微 指 令 地 址 。 唯 一 的 例外 是 组 合 微 程 序 控制 单元 ， 其 
中 一 些 转 换 地 址 通过 计数 器 增加 来 产生 5 。 

通常 ， 状 态 代 码 考虑 为 二 进 制 向 量 。 但 是 在 某 些 按 位 数字 系统 (大 多 数 是 二 
进 制 系统 ) 中 ， 很 有 可 能 考虑 为 某 个 算术 值 。 例 如 ， 状 态 代码 K(a;) = 11101011, 
可 以 视 为 整数 235 或 者 符号 数 -107, 或 者 二 进 制 补 码 -21， 或 者 实数 - 10. 11, = 
-2.75i0 等 。 显 然 ， 如 果 状 态 代码 视 为 二 进 制 数 ， 则 不 同 的 算术 的 和 逻辑 的 操作 可 
以 在 这 些 数 下 执行 。 

FSM 的 每 个 转换 都 可 以 视 为 当前 状态 代码 Ka) 到 转换 状态 代码 K(a;) 的 转 
换 。 例如 ， 有 必要 转换 状态 K(a;) = 01010110, = 861) = + 86cy = + 86, 到 代码 
K(aj) = 10101001, =1691o = —41 gy = -872c。 下 标 SM 意味 着 数字 表现 为 信号 幅度 
形式 ， 而 下 标 2C 是 二 进 制 补 码 形式 8 。 

解释 状态 代码 的 二 进 制 向 量 为 不 同 ED py — re 10 
表达 式 的 数 ， 要 求 执行 转换 K(a;) 一 
K(a;) ， 例 如 ， 同 图 9 1 中 表现 的 一 样 。 (0769) — [099 (ka= tis) 
中 间 的 模块 包括 算术 操作 ， 对 于 转换 [Ko)=+ts6x ] — E o ) —9 [kao she ) 
K(a;) > K(a;) 是 需要 的 。 每 个 这 样 的 图 9 1 不 同 数量 的 二 进 制 向 量变 换 
方法 都 给 出 结果 二 进 制 向 量 K(aj) o 

显然 ， 每 个 这 样 的 转换 可 以 使 用 不 同 的 操作 执行 ， 也 可 以 使 用 一 些 操作 的 顺 
序 。 例 如 ， 对 于 转换 K(w) > K(a;) 的 三 个 变 体 如 图 9. 2 所 示 ， 假 设 这 些 代 码 视 为 


一 一 
K(a))= +8620 | —* | xCD-1 ——> | K(aj) 2 -8Tac 
K(aj) 2486) | ——* | /(-28) x 29 ——> |K(aj) =-872¢ 


图 9.2 ”二进制 向 量 作为 二 进 制 补 码 的 对 等 转换 
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二 进 制 补 码 。 在 最 后 一 种 情况 中 , Ka) 除 以 -28 执行 为 准确 除法 (没有 保存 除法 
的 余数 ) 。 

在 一 些 情况 下 ， 转 换 可 以 使 用 布尔 操作 执行 ， 在 状态 代码 的 二 进 制 向 量 下 ， 也 
可 以 使 用 一 些 组 合算 术 和 逻辑 操作 。 例 如 ， 讨 论 的 转换 K(ai) —K(a;) 可 以 由 向 量 
K(a;) 的 按 位 反 演 执行 。 从 设计 点 来 看 ， 这 个 操作 会 导致 电路 有 最 佳 性 能 并 占有 最 
少 硬件 总 量 ， 相 比 于 其 他 讨论 的 操作 。 但 是 在 特定 情况 下 ， 只 对 讨论 过 的 代码 且 它 
们 为 双 字 节 数 时 才 会 发 生 。 

以 下 两 个 语句 基于 前 面 讨论 的 内 容 : 

语句 9.1 FSM 代码 的 转换 随 着 使 用 算术 和 逮 辑 操作 是 可 能 的 ， 其 选择 依赖 对 
应 的 状态 代码 的 二 进 制 向 量 的 算术 解释 。 

语句 9.2 在 普通 例子 中 ， 有 很 多 随 着 算术 和 逻辑 操作 的 转换 变 体 。 对 于 给 定 
的 钠 辑 器 件 ， 可 以 最 少 选择 一 个 变 体 ， 从 而 导致 逻辑 电路 有 最 少 硬件 总 量 或 者 最 佳 
性 能 ， 相 比 于 其 他 可 能 的 变 体 。 

将 FSM 代码 的 转换 的 新 方法 ， 即 使 用 算术 和 逮 辑 操作 命名 为 转换 可 操作 生成 。 
这 个 方法 会 导致 FSM 的 新 结构 (模型 ) ， 其 中 BIMF 表现 为 组 合 电路 的 构成 ， 执 行 
不 同 的 算术 和 逻辑 操作 。 





9.2 转换 可 操作 生成 的 FSM 组 织 


Moore FSM 的 规范 结构 图 !91 如 图 9.3 所 示 。 在 这 个 模型 中 ，BIMF 执行 输入 存 
储 函 数 系统 五 ， 产 生 进入 寄存 器 RG 的 下 一 状态 代码 。 由 集 7 的 状态 变量 代表 的 当 
前 状态 代码 进入 到 BIMF 和 BMO, BMO 使 用 ROM 执行 ， 它 保留 集 了 的 微 操作 。 微 
操作 进入 数据 通路 ， 初 始 化 原 语 操作 的 执行 。 开 始 脉冲 用 于 载 人 初始 状态 代码 到 
RG 中 ， 时 钟 脉冲 改变 RG 的 内 容 。 





图 9.3 Moore FSM 的 规范 结构 图 


令 对 应 某 个 GSA 的 Moore FSM 有 状态 集 4 = laj, an] 。 令 GSA 有 对 应 内 
状态 转换 (条件 的 和 无 条 件 的 ) WAE, JEREB = 1 B, ,…,By| ,命名 为 内 状态 
分 支 。 显然 ， 每 个 内 状态 分 支 对 应 PSM 结构 表 独 一 无 二 的 一 行 91。 如 果 所 有 的 转 
换 都 是 无 条 件 的 ， 则 有 了 = 下 ， 否 则 >W。 


309 














S 基于 FPGA 的 系统 优化 与 综合 3 


在 输入 存储 函数 系统 中 ， 每 个 内 状态 分 支 对 应 多 达 R 个 乘积 项 ， 其 中 R 是 状 
态 代码 位 数 。 显 然 ， 分 支 数 的 增加 会 导致 FSM 人 逻辑 电路 中 硬件 总 量 的 增加 。 这 个 
关系 大 约 是 线性 的 。 

以 如 下 方法 改变 模型 ( 见 图 9. 3 ) : 

(1) BIMF 作为 组 合 电路 CC(0;) (= 1,0) 的 组 成 部 分 。 

每 个 都 执行 某 个 独一无二 的 算术 或 逻辑 操作 0; sO， 使 用 状态 变量 TAEA 
件 X 作 为 操作 数 ， 如 图 9.4 所 示 。 电 路 CC( 0;) 的 输出 进入 多 路 复 用 器 MX, MX 由 
操作 亚 的 代码 控制 ， 它 产生 输入 存储 函数 B， 载 入 下 一 状态 的 代码 到 RG。 命 名 电 
路 CC(0;) 执 行 的 操作 为 转换 操作 ， 命 名 模块 集 | CC (01),…,CC(00),MX| 为 
Moore FSM 的 操作 部 分 (Operational Part, OP), OP 函数 是 输入 存储 函数 $B (下 一 
状态 的 代码 ) 基于 状态 变量 7 (当前 状态 的 代码 ) ERD, EHR AX MRE v 
的 代码 如 下 : 


















CC(O2) 





CC(01) 












OAT, X) Oy. X) 





OLX) 


CC(0,) | | 


D=O (T.X) 














T 


图 9.4 Moore FSM 的 操作 部 分 的 结构 





P=P(T,X,W) (9.1) 

应 该 指出 OP 结构 ( 见 图 9.4) 类 似 于 操作 自动 化 的 组 合 部 分 "| 。 寄 存 器 RG 
接收 多 路 复 用 器 MX 的 输出 数据 ， 而 RG 的 输出 进入 OP 的 输入 。 因 此 ， 寄 存 器 可 
以 视 为 OA 存储 。 因 为 模块 OP 实际 上 执行 内 状态 转换 ， 所 以 命名 操作 对 «OP, RG 
> 为 转换 的 操作 自动 化 (Operational Automation of Transition, OAT) 。 

(2) 在 FSM 结构 中 引入 额外 的 转换 操作 模块 (Block of Operation of Transition, 
BOT) 。 它 使 用 ROM (FPGA 的 EMB) 执行 。BOT 的 主 函 数 是 转换 操作 VW ESET 
状态 变量 了 生成 的 。 接 下 来 ， 这 个 代码 进入 多 路 复 用 器 MX 的 输入 。 命 名 结果 FSM 
结构 为 具有 转换 操作 自动 化 的 Moore FSM (HÆ OAT fi) FSM). HA OAT 的 Moore 
FSM 的 结构 图 如 图 9. 5 所 示 。 这 个 FSM 基于 内 状态 转换 的 操作 生成 准则 。 

具有 OAT 的 FSM 以 如 下 方式 操作 : 在 每 个 操作 周期 中 ， 和 寄存器 RG 接收 下 一 
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图 9.5 具有 OAT 的 FSM 的 结构 


状态 代码 ， 表 现 为 函数 BB。 现在 这 个 代码 为 表现 状态 变量 7， 并 视 为 当前 状态 代 
码 。 使 用 这 个 代码 ，BMO 产生 微 操作 Y。 同 时 ，BOT 产生 操作 多 的 代码 并 进入 
OAT。 使 用 这 个 代码 ，OP 生成 输入 存储 函数 的 新 值 ， 执 行 Q 个 可 能 的 转换 操作 中 
的 一 个 。 
因此 ， 具 有 OAT 的 FSM 具有 以 下 特点 ， 区 别 于 传统 Moore FSM: 
1) 状态 代码 不 解释 为 位 集 ， 而 是 在 二 进 制 数字 系统 中 表现 为 某 些 算术 值 ; 
2) 当前 状态 代码 Ka) 转换 到 下 一 状态 代码 K(a^*) ， 其 中 上 =0，1， 是 自动 
化 时 间 ， 使 用 算术 和 逻辑 操作 集 执行 ; 
3) 转换 操作 的 选择 是 当前 状态 代码 函数 。 
如 果 从 状态 a! BRAS a*' 存在 无 条 件 转换 ， 则 转换 函数 只 依赖 当前 状态 代码 。 
K(a'*! ) =0'(K(a')) (9.2) 
TEX (9.2) 中 ,符号 0 代表 转换 操作 ， 用 于 执行 来 自 状 态 “的 转换 。 
如 果 存 在 来 自 状态 a' 的 条 件 转换 ， 则 它们 可 以 组 成 某 些 FSM 状态 ， 依 赖 当 前 
状态 代码 和 人 逻辑 条 件 代 码 ， 对 于 这 些 转 换 是 足够 。 转 换 函数 如 下 : 
K(a'*!) =0'(K(a'),X') (9.3) 
E (9.3) 中 ,符号 K(a'* ) 代 表 下 一 状态 的 代码 ; X 是 逻辑 条 件 集 的 子 集 ， 
检查 执行 当前 状态 的 转换 ; 0' 是 转换 操作 ， 执 行当 前 状态 的 条 件 转 换 。 
ee ee i i 
1) 状态 代码 集 K= |K(ai),K(as),…,K(am)|， 其 中 以 是 集 4 的 基数 ， 只 有 
一 个 转换 对 应 E CIERRA GERD, 
2) 转换 操作 集 0 = | 0 ,…,0Oo|l ， 其 中 OSM, 在 通常 情况 下 , 集 0 的 每 个 器 
件 允 许 不 同 的 执行 〈 它 可 以 使 用 不 同 组 合 电路 执行 ) 。 对 于 执行 每 个 操作 ， 选 择 合 
适 的 方式 会 明显 影响 最 终 FSM 电路 的 硬件 特性 。 
关系 OSM 基于 这 个 事实 ， 即 相同 的 操作 可 以 用 于 执行 多 个 转换 。 例 如 ; XB 
有 代码 20 的 状态 a; 的 转换 进入 有 代码 40 的 状态 w， 可 以 使 用 操作 “ +20” 执 行 。 
对 于 来 自 有 代码 34 的 状态 a; 的 转换 进入 有 代码 54 的 状态 a; 执行 相同 的 操作 为 真 。 
在 这 种 情况 下 ， 转 换 的 相同 操作 可 以 用 于 执行 这 些 转换 。 意 味 着 转换 使 用 相同 的 组 
合 电路 执行 。 显 然 ， 相 同 的 组 合 电路 可 以 用 于 执行 1 ~ M 的 转换 。 很 明显 ， 对 于 给 
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XE GSA 选择 的 转换 操作 应 该 执行 所 有 给 定 状态 代码 值 的 内 状态 变换 。 
提出 的 FSM 模型 可 以 表达 为 以 下 向 量 : 
S= <K,0,¥> (9.4) 
根据 本 章 参 考 文献 [9] ， 具 有 OAT 的 FSM 逻辑 电路 的 综合 减少 到 构建 和 物理 
执行 所 有 来 自 式 (9.4) 的 集 。 微 操作 使 用 特定 CSA 的 顶点 算 子 执行 ， 而 集 K 和 0 
根据 给 定 优化 准则 构建 。 


9.3 FSM 设计 实例 


这 里 讨论 针对 有 OAT 的 Moore FSM 
的 设计 实例 。 这 个 实例 的 主要 目标 只 是 
概述 提出 的 准则 ， 这 里 不 考虑 这 样 的 问 
题 ， 即 最 小 化 硬件 总 量 和 优化 FSM 性 
能 。 这 个 例子 非常 简单 ， 令 控制 算法 由 
GSA D, XA, WE 9.6 所 示 。 这 里 构 
建 转换 操作 集 ， 具 有 3 个 元 素 。 操 作 
0 是 无 条 件 “ 顺 序 ” 转 换 操作 ， 对 应 
沿 着 GSA 到 下 一 状态 的 “down” 转 换 。 
令 操作 01 对 应 以 下 表达 式 : 








O, (a!) =a' -k, (9.5) 
Hop, ky 是 某 个 常数 。 这 里 指出 符号 
a' 视 为 代码 K(a')， 意 味 着 所 有 相似 的 图 9.6 To 算法 的 图 策略 
表达 式 都 使 用 状态 代码 。 
操作 0, 是 条 件 转 换 操 作 。 这 个 操作 产生 两 个 可 能 结果 中 的 一 个 ,依赖 被 检查 
的 逻辑 条 件 值 
2a'+k,, x' =0 
oan) =| (9.6) 
2a'-k,, x'=1 
Hep, ky ENR. ANRE WRI Bat, KEAN 
0, 9 (a^) =2a' +k, (9.7) 
0, (a!) =2a' - k, (9.8) 


操作 OGEI “URE” FERRE; 是 CSA 的 更 高 点 的 转换 。 在 讨论 的 例子 
中 ， 这 样 的 转换 执行 从 状态 a4 到 状态 oz。 定义 这 样 的 操作 为 
0;(a') 2a! -ho (9.9) 
其 中 ，hs 是 某 个 常数 。 
这 里 指出 本 书 不 讨论 如 何 选 择 式 (9.5) ~ 式 (9.9)， 对 于 选择 应 该 采用 特殊 
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的 方法 。 显 然 ， 相 当 不 同 的 操作 可 以 选择 用 于 另外 的 GSA。 

这 里 构建 等 式 系统 ， 将 具有 状态 代码 的 数字 值 作为 其 根 。 对 于 给 定 的 GSA, 
系统 的 每 个 等 式 对 应 独一无二 的 转换 ， 而 等 式 的 总 数 等 于 内 状态 转换 的 数量 。 每 个 
转换 使 用 函数 O, ~ 0; 中 的 一 个 执行 。 

在 普通 情况 下 ， 任 何 指定 操作 可 以 用 于 转换 。 唯 一 条 件 是 转换 的 正确 执行 。 但 
是 对 于 转换 操作 ， 这 里 选择 紧 随 上 述 选择 的 约定 。 因 此 ， 转 换 aoa, aa, 
as 一 a0 应 该 使 用 操作 OidA AT. 转换 CC2 一 03 ，Q3 一 CQ1 应 该 使 用 操作 O,_, FMT, 转换 
0 一 04，03 一 05 使 用 操作 Oo 执行， 转换 aua, 应 该 使 用 操作 0 执行。 因此 ， 应 
该 构建 以 下 方程 式 系统 : 








ao =01(as); a, 204(a4) 
a, = 01(a0); az; = 0_\ (a2) 
a, =0,_,(a3); a4705.9(a;) vie 
ay = 01(41); as 2 05 (a3) 
显然 , X (9.10). 所 示 系 统 有 许多 
可 能 的 解决 方案 ( 根 )。 这 里 选择 常数 
ky =ky=3, kh =7， 各 自 对 于 操作 O, ~ 
03。 在 这 种 情况 下 ， 可 以 获得 如 下 十 进 
制 值 ， 对 应 满足 式 (9.10) 所 示 系 统 的 
状态 代码 : K (ay) = 10,K(a,) =7, 
K(a,) 4,K(a4) =5,K(a,) =11,K 
(as) z134 
这 个 解决 方案 可 以 表现 为 流程 图 ， 
如 图 9.7 所 示 。 这 个 图 的 矩形 项 点 包含 
状态 代码 ， 而 它 的 移动 符合 转换 操作 。 
事实 上 对 于 Moore FSM 只 有 M -6 图 9.7 图 对 应 GSA ,的 状态 代码 和 转换 操作 
个 状态 对 应 GSA 厂 。， 作 为 状态 代码 的 
最 大 十 进 制 数 等 于 13。 显 然 状 态 赋 值 需要 4 位 ， 这 个 值 决 定 了 组 合 模块 OAT 的 RG 
和 PROM 的 参数 。 
两 个 逻辑 条 件 中 的 一 个 (x, Ra) 由 操作 0, 分 析 。 为 了 选择 这 些 条 件 中 的 一 
个 ， 可 以 使 用 已 知 的 逻辑 条 件 替代 方法 "“”] 。 为 了 这 样 做 ， 这 里 增加 了 领域 Z 进入 
到 BOT 的 PROM 中 。 这 个 领域 包括 选择 的 逻辑 条 件 代码 。 在 讨论 的 例子 中 ， 这 个 
领域 只 有 一 位 。 为 了 在 OP 的 输入 上 只 转换 逻辑 条 件 中 的 一 个 ， 有 必要 在 组 合 模块 
执行 操作 0 之 前 ， 放 置 特 殊 的 逻辑 条 件 多 路 复 用 器 。 多 路 复 用 器 由 来 自 领 域 2 的 
代码 控制 。 : 
这 里 以 如 下 方式 编码 操作 O, ~ 03: K(01) =00,K(0,) =01,K(03) =10。 使 
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用 如 下 代码 编码 逻辑 条 件 : K(x,) =0 和 K(x,) =1。 构建 表 用 于 表现 BOT 的 PROM 
的 内 容 ， 见 表 9. 1。 在 这 个 表 中 ,符号 “* ”代表 PROM 中 “不 关心 ”的 位 的 值 。 
#9.1 BOT H PROM 的 内 容 (GSA Dio) 







































































a; K(a;) Ti TT; T; Y g 
0000 * Ok * 

0001 *o* x 

0010 * * * 

a 4 0100 01 0 
az 5 0101 | 01 1 
0110 * 六 * 

ay 7 0111 00 * 
1000 * 六 * 

1001 *o* * 

ao 10 1010 00 * 
a, 11 1011 10 * 
X. * 

00 * 

*o* * 

* * 











这 里 指出 ，BMO 的 PROM 的 内 容 构建 方式 类 似 于 图 9. 1 中 的 模型 的 这 个 内 容 
的 构建 方式 。 为 了 这 样 做 ， 应 该 使 用 操作 顶点 和 状态 代码 值 的 内 容 。 在 讨论 的 例子 
H, BMO 应 该 有 四 个 地 址 输入 ， 而 对 于 图 9.1 中 的 Moore FSM 只 需要 三 个 输入 。 
基于 one — hot 微 操 作 编 码 的 BMO 内 容 见 表 9. 2。 
表 9.2 BMO 的 PROM 的 内 容 (CSA Tio) 













































































ai K(a;) TT TT YiY2Y3Y4 
0000 ok ok ok 
0001 Ke ROK 
0010 Rook Kk 
0011 ke RK 
a, 4 NE 0100 0110 
az 5 0101 1010 
1000 kokk 
1001 * kkk 
ay 10 T 1010 0000 
a, 11 1011 0001 
1100 *o* ok ox 
as 13 1101 1011 
1110 xe OK OX 
1111 ek OR 


具有 转换 操作 自动 化 的 Moore FSM 的 结构 图 如 图 9. 8 fray. BEER O, ~ 03 执行 
由 式 (9.5) ~ 式 (9.9) 表现 的 对 应 操作 。 逻 辑 条 件 的 多 路 复 用 器 MX, 根据 变量 Z 
的 值 产生 逻辑 条 件 值 。 结 果 的 多 路 复 用 器 MX, 根据 变量 严 的 值 产 生 输 入 存储 函数 
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[9.8 ELA OAT 的 Moore FSM 的 结构 (GSA Lio) 


o 的 值 。 当 然 ， 操 作 模 块 的 这 个 集 对 于 每 个 具有 转换 操作 自动 化 的 FSM 是 独 一 无 
二 的 ,但 是 这 个 设计 方法 对 于 任何 初始 化 算法 图 策略 都 是 通用 的 。 


9.4 RA OAT 的 FSM 的 综合 进程 结构 表达 


对 于 具有 OAT 的 FSM， 有 一 些 问题 涉及 普通 综合 方法 的 发 展 。 首 先 ， 需 要 确 
定 FSM 的 参数 ， 作 为 综合 进程 的 条 件 。 发 现 了 以 下 问题 : 

1) 固定 的 状态 代码 集 ， 用 于 构建 转换 操作 和 集 ; 

2) 固定 的 转换 操作 集 ， 由 可 用 操作 模块 决定 (这 个 模块 视 为 特定 CAD 的 库 
元 素 ) ; 

3) 优化 标准 ， 用 于 选择 转换 的 状态 代码 或 操作 。 

当然 ， 可 以 选择 不 同 参数 开始 ， 也 可 以 选择 多 个 参数 开始 。 这 个 选择 依赖 一 系 
列 特别 因子 。 最 后 的 选择 决定 综合 进程 的 特点 。 

除了 选择 合适 的 开始 参数 外 ， 还 应 该 考虑 综合 的 不 同 阶段 可 以 由 不 同 工 具 输 
出 。 例 如 ， 不同 的 转换 操作 和 集 可 以 根据 给 定 状态 代码 值 构 建 。 在 最 终 FSM 电路 中 ， 
这 些 集 在 硬件 总 量 和 性 能 方面 都 不 同 。 男 一 方面 ， 对 于 相同 的 操作 集 ， 状 态 代 码 可 
以 以 不 同方 式 选 择 。 在 这 种 情况 下 ， 选 择 会 影响 状态 代码 的 位 数 ， 从 而 影响 BOT 
All BMO 的 硬件 总 量 。 

毫 无 疑问 ， 这 个 或 那个 方法 的 选择 ， 对 于 执行 综合 的 某 个 阶段 ， 会 影响 最 终结 
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果 ， 但 是 在 得 到 FSM 电路 之 前 很 难 评估 这 个 影响 。 因 此 ， 设 计 具 有 OAT 的 FSM 的 
设计 者 应 该 处 理 大 量 常量 ， 用 于 开始 条 件 选择 ， 以 及 执行 综合 阶段 的 可 能 情况 。 同 
时 ， 没 有 关于 综合 阶段 、 数 量 和 执行 顺序 等 重要 问题 的 精确 初步 知识 。 这 样 的 问题 
限制 了 具有 OAT 的 FSM 的 普通 综合 方法 发 展 的 复杂 性 。 


9.4.1 具有 OAT 的 FSM 的 综合 进程 的 基本 结构 


对 于 具有 OAT 的 FSM 的 普通 设计 方法 的 发 展 " 1 ， 这 里 考虑 以 下 方法 ; 

(1) 形成 设计 进程 的 主要 阶段 的 集 。 以 下 问题 可 以 为 这 个 集 的 元 素 : 

1) 状态 代码 值 的 选择 ; 

2) 构建 转换 操作 集 ; 

3) 构建 对 于 给 定 CSA 的 内 状态 转换 集 ( 如 果 需 要 ， 则 额外 的 顶点 可 以 引入 到 
初始 化 CSA 中 ， 对 应 闲置 FSM 状态 ); 

4) 用 于 解释 状态 代码 的 数据 类 型 (如 状态 代码 可 以 视 为 符号 及 数值 表示 法 ， 
或 者 1 的 补 码 或 二 进 制 补 码 ， 或 浮 点 数 ， 或 BCD 码 等 ) ; 

5) 用 于 执行 转换 操作 的 库 器 件 集 (相同 的 OT 可 以 用 模块 执行 ， 旨 在 使 硬件 
最 小 化 或 性 能 最 大 化 ， 这 个 选择 会 影响 特定 电路 占用 芯片 的 区 域 ) ; 

6) 用 于 FSM 电路 的 基本 优化 准则 (硬件 总 量 、 性 能 、 功 率 消耗 、 可 靠 性 等 )5 

显然 ， 其 他 综合 步骤 可 以 加 入 ， 以 达到 特定 工程 的 某 些 明确 要 求 。 

(2) 这 里 将 综合 进程 表现 为 某 个 方向 图 。 图 节点 对 应 综合 阶段 。 图 线 数 对 应 
可 能 的 综合 进程 连接 。 上 面 提 到 的 综合 阶段 允许 构建 具有 OAT 的 FSM 图 ， 如 图 
9.9 所 示 。 这 个 图 的 特点 是 整个 综合 交错 和 器 件 之 间 稳 定 连接 。 鉴 于 此 ， 图 9.9 可 
以 命名 为 具有 OAT 的 FSM 综合 进程 的 基本 结构 。 术 语 “ 基 本 ”意味 着 这 个 结构 不 
是 严格 的 ， 可 以 增加 或 者 删除 一 些 节点 或 线 数 。 

考虑 基本 结构 器 件 之 间 的 连接 。 

模块 6“ 主 要 优化 准则 ”可 能 影响 所 有 其 他 模块 。 用 于 执行 所 有 其 他 模块 的 方 
法 明显 依赖 使 用 的 优化 准则 。 没 有 其 他 模块 能 改变 优化 准则 。 

模块 7“ 优 化 级 ”限制 模块 1 ~5 使 用 方法 的 复杂 性 。 

模块 3 和 4 影响 状态 代码 的 生成 进程 (模块 1) 。 使 用 由 模块 1 生成 的 状态 代 
码 ， 转 换 操 作 集 可 以 被 发 展 〈 模 块 2) 。 

使 用 来 自 模 块 2 的 转换 操作 集 ， 选 择 可 能 的 状态 代码 形式 〈 模 块 4) 和 可 以 找 
到 决定 状态 代码 值 (模块 1) 的 内 状态 交换 集 (模块 3) 。 使 用 模块 2，6，7， 选 择 
库 器 件 执行 转换 操作 (模块 5)。 

模块 8“ 具 有 OAT 的 FSM 的 功能 电路 ”没有 离开 线 数 。 其 可 视 为 图 的 最 
后 节点 。 它 包括 设计 进程 的 结果 。 这 个 模块 的 内 容 由 模块 5 (操作 部 分 的 组 合 
电路 集 ) 和 模块 1 (BMO 和 BOT 的 PROM 中 状态 代码 和 数据 地 址 的 数量 ) 
决定 。 
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主要 优化 准则 优化 级 




















状态 代码 格式 状态 赋值 状态 转换 集 





























执行 OT 电 路 


a 


具有 OAT 的 FSM 
的 功能 电路 














图 9.9 具有 OAT 的 FSM 的 综合 进程 的 基本 结构 


9.4.2 改良 综合 进程 的 基本 结构 


模块 图 〈 见 图 9.9) 只 表现 了 可 能 的 综合 步 又 集 和 具有 OAT 的 FSM 的 内 连接 。 
为 了 获得 可 以 在 实际 中 使 用 的 综合 方法 ， 需 要 改良 基本 结构 。 根 据 以 下 问题 改良 : 

(1) 选择 一 些 模块 〈 一 个 或 多 个 ) 作为 综合 的 开始 条 件 。 可 以 选择 模块 1， 
2, 6, 7 中 的 一 个 或 者 模块 对 <1, 4 > «2, 4 > 作为 开始 条 件 。 在 通常 情况 下 ， 
选择 应 该 提供 执行 FSM 功能 函数 。 其 次 ， 进 入 初始 化 模块 的 线 数 从 图 中 删除 了 。 
因此 ， 这 个 综合 步骤 不 依赖 其 他 步骤 。 

(2) 路 线 选择 从 初始 化 节点 到 节点 8。 在 通常 情况 下 ， 路 线 可 以 是 连续 的 、 并 
行 的 或 迭代 的 (有 周期 )。 

(3) 对 于 每 个 综合 步骤 都 定 下 了 执行 方式 。 在 通常 情况 下 ， 其 依赖 前 面 节点 
的 结果 。 

这 里 讨论 一 些 例 子 。 

819.1. SHRI 和 6 作为 开始 条 件 。 其 会 导致 图 9. 10 的 综合 进程 。 

(1) 模块 1 和 6 都 为 开始 ， 它 们 没有 进入 线 数 ， 有 离开 线 数 连接 模块 1 和 6 的 
节点 都 删除 了 〈 在 这 种 情况 下 ， 删 除了 节点 3 和 4)。 
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(2) 节点 6 和 7 对 节点 1 没有 影响 。 C 7 

然 ， 它 们 可 以 影响 其 他 综合 步骤 。 这 个 影响 EZ 

的 结果 依赖 每 个 步骤 的 执行 特性 。 rx 
考虑 到 模块 1 和 2 的 相互 关系 A ] 

9.1) ,可 以 将 语句 初步 状态 赋值 在 综合 进程 : 

的 这 个 步骤 发 生 。 构 建 转换 集 的 步骤 如 下 。 
每 个 模块 的 按 步 执行 产生 对 于 具有 OAT 


的 Moore FSM 的 综合 算法 。 对 于 大 多 数 模 -—1 3 
块 ， 执 行 不 同 算法 是 可 行 的 。 因 此 ， 结 构 
= a 




















( 见 图 9. 10) 可 能 产生 综合 算法 的 变 体 。 当 
A EPEAN ANETAR URS Woo 开始 1 和 6 的 综合 进 和 结构 

图 9.10 中 的 方法 可 以 在 状态 代码 (模块 1) 事先 定义 的 情况 下 使 用 。 例 如 ， 
使 用 这 些 代 码 获 得 BMO 的 内 容 是 可 能 的 。 第 二 种 可 能 是 给 出 初步 设计 的 一 些 模块 ， 
用 于 FSM 结构 解体 的 情况 。 

例 9.2 令 步 又 2 和 6 为 开始 。 在 这 
种 情况 下 ， 基 本 结构 如 图 9. 11 所 示 。 其 
有 以 下 特性 : 

(1) 模块 6 不 影响 模块 2 (两 个 模 
块 都 已 开始 ) ， 意 味 着 不 能 改变 指定 的 
转换 操作 集 。 对 于 所 有 可 能 的 状态 代码 ， 
如 果 OT 集 不 足以 执行 所 有 的 内 状态 转 
换 ， 则 不 可 能 执行 综合 。 

(2) 使 用 OT 集 ， 则 可 以 选择 状态 
代码 的 表现 形式 (模块 4) 和 内 状态 转 
换 集 (模块 3)。 选 择 可 以 考虑 优化 准则 — 图 9.11 开始 模块 2 和 6 的 综合 进程 结构 
完成 (模块 6 对 模块 3 和 4 的 影响 )。 可 
以 选择 不 同 程 度 的 优化 (模块 7 对 模块 3 和 4 的 影响 ) 。 

考虑 到 模块 1 和 2 之 间 的 关系 ， 可 以 将 语句 转换 操作 集 的 初步 构建 放 在 这 个 模 
型 中 。 这 步 之 后 是 状态 赋值 步骤 。 

图 9. 11 中 的 图 对 应 这 种 情况 ， 即 当 转 换 操作 集 事先 定义 而 且 不 能 被 改变 时 执 
行 。 例 如 ， 当 操作 集 使 用 一 些 标准 LUT 或 其 他 标准 设备 执行 时 是 可 行 的 。 

例 9.3 令 模 块 4 和 6 为 开始 。 在 这 种 情况 下 ， 基 本 结构 变 为 图 9. 12 所 示 
结构 。 

正如 所 见 ， 模块 1，2，3 形成 环 。 意 味 着 阶段 1 ~3 可 以 在 综合 进程 中 大 量 重 
复 。 对 于 给 定 阶 段 ， 这 个 结构 假定 执行 不 同和 迭代 。 它 可 以 提高 综合 结果 的 定性 特 
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征 。 田 一 方面 ， 它 会 导致 增加 这 些 步 又 
执行 的 复杂 性 。 | LH 
a pa 











图 9. 12 中 的 结构 对 应 这 种 情况 ， 即 
当 状态 赋值 阶段 和 构建 内 状态 集 同 时 转 
换 执 行 。 这 个 进程 可 以 命名 为 并 发 状态 
赋值 和 构建 转换 集 。 

因此 ， 指 出 了 三 种 明确 的 综合 进程 
结构 ， 如 下 : 

1) 具有 初步 状态 赋值 的 结构 (I 
图 9. 10) ; 

2) 具有 初步 构建 转换 操作 集 的 结构 ”图 9.12 开始 模块 4 和 6 和 综合 进程 结构 
( 见 图 9. 11) ; 

3) 具有 并 发 状态 赋值 和 构建 内 状态 转换 集 的 结构 ( 见 图 9. 12)。 

对 于 每 个 结构 的 每 个 模块 ， 有 很 多 可 能 的 执行 ， 意 味 着 有 很 多 不 同 的 可 能 的 综 
合 进 程 。 而 且 ， 每 个 结构 可 以 调整 ， 根 据 引 入 一 些 连 接 到 应 用 不 同 约束 或 FSM 使 
用 的 优化 方法 的 新 阶段 。 正 如 所 知 ， 执 行 FSM 逻辑 电路 的 逻辑 器 件 的 每 个 改变 都 
会 导致 基于 这 些 新 器 件 特点 的 新 的 优化 方法 发 展 。 


9.5 转换 操作 自动 化 组 织 








9.5.1 操作 自动 化 的 典型 结构 模型 


在 结构 综合 理论 中 ， 通 过 这 些 特性 ， 即 硬件 总 量 、 性 能 、 规 律 性 和 普遍 性 ， 评 
估 操 作 自 动 化 结构 是 可 接受 的 。 这 些 特性 的 不 同 组合 可 以 使 它们 具体 化 ， 比 如 结构 
模型 ， 如 基本 自动 机 (C -0A)， 有 单个 微 操作 的 自动 机 (I- OA) 有 相互 微 操作 
的 自动 机 (M-OA) 和 有 顺序 或 并 行 组 合 部 分 的 自动 机 (IM -OA)!?!, 

在 C-OA 中 ,算法 的 每 个 微 操 作 由 独一无二 的 组 合 电路 执行 。 这 样 OA 具有 硬 
件 总 量 和 性 能 的 最 大 值 〈 在 一 个 操作 周期 内 执行 微 操 作 的 平均 数量 ) ， 和 相等 OA 中 
传播 时 间 的 最 小 值 。 这 里 指出 如 果 它 们 执行 相同 的 操作 集 ， 则 操作 自动 化 相等 。 

在 I- OA 中 ,信息 的 每 个 字 (操作 数 ) 由 独一无二 的 组 合 电路 执行 。 这 个 电 
路 不 包括 相同 的 操作 器 件 。 例 如 ， 只 有 一 个 加 法 器 或 者 移 位 器 可 以 包括 到 每 个 CC 
中 。 人 额外 的 多 路 复 用 器 引入 到 1 工 - OA 中 , 与 C - OA 相 比 。 它 会 导致 硬件 总 量 减 
少 ， 传 播 时 间 增 加 ,与 C -OA 相 比 。 

在 M - OA 中 只 有 单个 CC， 对 于 保存 可 能 的 操作 数 的 所 有 寄存 器 是 相互 的 。 单 
操作 数 和 双 操 作 数 的 微 操作 都 可 以 由 CC 在 一 个 周期 内 执行 。 对 于 一 个 给 定 的 操作 
集 ， 操 作 器 件 的 数量 可 以 优化 。 它 会 导致 硬件 总 量 和 性 能 的 减少 。 在 操作 的 一 个 周 
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期 内 只 有 一 个 微 操作 可 以 执行 ， 意 味 着 M - OA 的 性 能 不 超过 1 。 

IM - 自动 化 允许 一 个 周期 内 执行 多 达 3 个 微 操 作 。 对 于 两 个 接收 寄存 器 ， 一 
个 单 操作 数 和 一 个 双 操 作 数 可 以 在 一 个 周期 内 执行 (IMp - OA， 其 中 下 标 了 代表 
并 行 组 合 部 分 ) ， 或 者 对 于 相同 的 接收 寄存 器 ， 两 个 单 操作 数 和 一 个 双 操 作 数 在 一 
个 周期 内 执行 (IMs - 0A， 其 中 下 标 S 代表 顺序 组 合 部 分 )。 组 合 电路 的 数量 增加 
使 这 个 模型 收敛 为 I- OA ， 而 减少 为 M - O0A。 通 常 ， 相 比 于 其 他 模型 ，IM - OA R 
有 特性 的 平均 值 。 


9.5.2 OAT 的 组 织 特性 


转换 操作 自动 化 作为 Moore FSM 的 一 部 分 ， 具 有 以 下 特性 : 

(1) 对 于 给 定 的 GSA， 在 执行 所 有 的 转换 时 应 该 执行 所 有 改变 状态 代码 的 操作 。 
因此 ， 其 电路 执行 的 OT 集 由 内 状态 转换 集 决定 。 换 句 话 说， 由 初始 CSA DUE. 

(2) 只 有 一 个 寄存 器 存在 OAT 中 ， 用 于 保留 FSM 状态 代码 。 这 个 寄存 器 对 于 
任何 OT 都 只 是 一 个 接收 器 。 执 行 转 换 操 作 的 初始 数据 包括 RG 的 内 容 和 逻辑 条 件 
值 。 逻 辑 条 件 是 外 部 的 ， 在 通常 情况 下 ， 它 们 关于 OAT 是 异步 的 。 

(3) 在 OA 中 ,操作 数 的 值 是 随机 的 ， 对 于 重复 多 次 的 相同 操作 ， 它 们 可 以 不 
同 。 它 会 导致 相同 的 错误 〈 如 加 法 溢出 或 被 0 BE) 。 这 个 错误 情况 由 flag KA GE 
辑 条 件 ) ， 由 特殊 的 模块 OA 产生 ， 进 入 FSM 电路 。 在 OAT 情况 下 ， 固 定 的 状态 代 
码 用 作 操 作 数 。 因 此 ， 在 处 理 状态 代码 过 程 中 ，OAT 应 该 在 没有 错误 的 情况 下 设 
计 。 每 个 可 能 的 内 状态 转换 应 该 不 出 错 。 所 以 ， 没 有 必要 在 flag 中 通知 错误 。 因 
Jb, OAT 结构 不 包括 逻辑 条 件 生 成 模块 。 


9.5.3 OAT 组 成 部 分 的 组 织 


用 于 设计 OA 组 合 部 分 的 初始 数据 是 微 操 作 集 ， 为 执行 的 算法 存在 。 通 常 ， 它 
可 以 为 上 文 讨论 的 OA 结构， 可 以 视 为 映射 微 操 作 集 到 组 合 电 路 集 的 不 同方 法 。 通 
过 模拟 数字 系统 的 传统 OAT), CIH OAT 执行 一 些 内 状态 转换 集 映射 到 组 合 
电路 集 。 以 下 变 体 对 于 执行 这 样 的 映射 是 可 能 的 。 

(1) 单个 执行 。 在 这 种 情况 下 , 恕 个 转换 中 的 每 个 都 对 应 单个 OT, 一些 独 一 
无 二 的 组 合 电路 对 应 每 个 OT 执行 要 求 的 函数 ， 用 于 将 当前 状态 代码 转换 到 下 一 状 
态 代 码 。 所 有 的 模块 CC (0,) ~ CC (0,) 连接 到 结果 MX 的 多 路 复 用 器 ， 如 图 
9.13 所 示 。 命 名 图 9.13 中 的 OAT 为 有 I 类 组 合 部 分 的 OAT (OATI) 。 在 OATI tF, 
组 合 电 路 的 内 部 组 织 可 以 不 同 。 如 果 CC 对 应 无 条 件 转换 ， 则 它 可 以 执行 为 下 一 状 
态 代 码 的 不 变 代码 的 生成 器 。 其 功能 不 依赖 当前 状态 代码 和 逻辑 条 件 值 。 如 果 CC 
对 应 条 件 转换 ， 则 其 可 以 执行 为 有 常量 输入 的 多 路 复 用 器 ， 由 相应 的 逻辑 条 件 控 
制 。 常 量 对 应 下 一 状态 的 代码 。 

这 个 OA 的 最 消耗 硬件 的 器 件 是 结果 多 路 复 用 器 。 如 果 在 给 定 的 FSM dU M 
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个 状态 和 履 个 转换 操作 ， 则 状态 代码 和 操作 代码 都 是 = log M 位 。 在 这 种 情况 
F, MX 是 R 位 的 MX, AM 个 信息 输入 和 RR 个 控制 输入 。 对 于 普通 复杂 性 的 
FSM， 可 能 有 W =20065] 。 在 这 种 情况 下 ， 存 在 具有 200 个 8 位 方向 的 MX。 这样 复 
杂 的 MX 可 以 执行 为 多 层 (级 联 ) 电路 。 显 然 ， 它 需要 大 量 硬件 资源 而 且 很 慢 。 


X 
上 i 




















CC(0) CC(O;) 



















Oy(T. X) 





O«(T, X) 








图 9.13 具有 I-0A 的 OAT 的 结构 图 

因此 ，OATI 的 主要 缺陷 是 极 大 的 硬件 总 量 和 较 长 的 传播 时 间 ， 随 着 PSM 状态 数 
量 的 增加 而 增加 。 它 会 导致 BOT 电路 的 高 复杂 性 ， 是 由 于 操作 代码 的 最 大 可 能 的 位 
数 。 这 个 方法 的 主要 积极 特性 是 设计 进程 的 普遍 性 。 意 味 着 对 于 任何 GSA 设计 方法 
都 一 样 ， 对 于 所 有 OT， 它 就 变 成 了 所 有 CC 连续 执行 ， 由 结果 MX 设计 完成 。 

(2) 转换 操作 的 广义 执行 。 命 名 两 个 或 多 个 转换 为 伪 等 转换 ， 假 设 相同 的 OT 
可 以 用 于 它们 的 执行 。 例 如 ， 从 有 代码 5 的 状态 转换 到 有 代码 20 的 状态 ， 执 行为 
初始 代码 左 移 2 位 。 使 用 这 个 操作 ， 可 以 执行 从 有 代码 8 的 状态 转换 到 有 代码 32 
的 状态 。 这 些 转换 形成 伪 等 转换 类 B;,e B， 其 中 有 i=1，Q。 因 此 ， 在 CSA 中 形成 
Q 个 伪 等 转换 类 是 可 能 的 。 

这 样 的 广义 转换 操作 的 减少 了 进入 到 OAT 电路 的 CC 总 量 。 它 导致 OAT 有 IM 
类 操作 部 分 (OATIM ) ， 如 图 9. 14 所 示 。 


X 








i i 


CC(O) CC(O)) 




























OXT, X) 









Oo(T.X) 






OI(T,X) 


D= Ow(T. X) 





“id 
图 9.14 OATIM 的 结构 图 
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对 比 OATI， 这 个 结构 有 以 下 特色 : 

1) CC 的 数量 减少 到 0<M， 是 由 于 伪 等 转换 类 的 存在 ; 

2) CC 的 内 部 结构 更 加 复杂 ， 它 们 执行 一 些 算 术 和 逻辑 操作 ， 而 不 是 产生 一 
些 常 量 ， 因 此 ,传播 时 间 对 于 操作 部 分 增加 ; 

3) 由 于 操作 数量 的 减少 ， 操 作 代码 的 位 数 从 Ry = log; M 减少 到 Ry = log; Q, 
它 会 导致 BOT 和 结果 MX 简化 ; 

4) 伪 等 转换 类 的 总 量 依赖 状态 代码 的 值 ， 它 会 影响 组 合 电路 的 总 量 和 复杂 
性 。 因 此 ， 有 可 能 对 于 这 样 的 状态 代码 选择 ，OATIM 将 包括 CC 的 最 小 量 (最 小 的 
硬件 总 量 ) 。 但 是 合适 的 状态 代码 的 选择 问题 相当 复杂 ， 它 需要 发 展 特殊 的 算法 。 

(3) 转换 的 普通 执行 。 在 一 些 情况 下 (对 于 一 些 GSA), ， 可 能 减少 OT RA h 
两 个 组 合 电路 执行 的 两 个 操作 。 第 一 个 CC 执行 无 条 件 转 换 ， 而 第 二 个 CC 执行 条 
件 转换 。 通 过 用 IM - OA 模拟， 两 个 组 织 是 可 行 的 。 其 中 一 个 是 有 顺序 OP 的 OAT 
(OATS) ， 第 二 个 是 有 并 行 OP 的 OAT (OATP)。 

OATS 允许 独立 使 用 无 条 件 转 换 操 作 和 部 分 条 件 转 换 的 复杂 操作 。 在 第 二 种 情 
况 下 ,不 使 用 结果 多 路 复 用 右 。 

在 有 并 行 OP 的 模型 中 ， 转 换 操 作 由 两 个 CC 并 行 操作 执行 。FSM 的 传播 时 间 
小 于 前 面 的 情况 。 其 传播 时 间 由 CC 的 最 大 传播 时 间 决 定 。 结 果 MX 由 BOT 产生 的 
操作 vr BS 1 位 代码 控制 。 

显然 ， 应 用 这 类 OP 的 必要 条 件 是 两 个 组 合 电路 执行 所 有 的 内 状态 转换 是 可 行 
的 。 对 于 任意 CSA， 这 个 条 件 是 不 可 能 发 生 的 。 因 此 ， 这 个 模型 可 以 视 为 某 个 
“理想 模型 ”。 

对 于 讨论 的 广义 OAT 结构 ， 可 以 得 出 如 下 结论 : OATI 占用 最 大 硬件 总 量 ， 允 
许 使 用 执行 转换 操作 的 广义 模型 找到 伪 等 转换 类 ， 综 合 结果 依赖 使 用 的 优化 方法 和 
执行 的 GSA 特性 。 

(4) OAT 的 基本 执行 。 传 统 C - OA 假定 存在 一 些 寄存 器 接收 数据 。 每 个 寄存 
器 对 应 其 CC 集 。 因 为 在 OAT 中 只 可 能 有 一 个 寄存 器 ， 所 以 OATI 的 结构 可 以 视 为 
有 基本 OP 的 OAT。 


9.6 有 转换 操作 增补 集 的 FSM 的 综合 方法 


在 初步 构建 转换 操作 集 的 情况 下 ， 设 计 者 应 该 解决 连接 到 基于 这 些 操 作 的 状态 
代码 的 选择 问题 。 独 一 无 二 的 状态 代码 应 该 以 这 样 的 方式 选择 ， 即 任何 内 状态 转换 
可 以 使 用 这 些 操作 执行 。 很 可 能 的 情况 是 ， 当 只 使 用 存在 的 转换 操作 时 执行 所 有 转 
换 是 可 行 的 。 在 这 种 情况 下 ， 可 以 完成 以 下 行为 : 

1) 部 分 状态 形成 集 A C4， 使 用 代码 的 可 接受 范围 赋值 ; 

2) 余下 部 分 状态 形成 集 A =A\ 41， 可 以 从 代码 的 可 接受 范围 内 使 用 未 使 用 
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的 状态 代码 编码 ; 

3) KAR O 的 操作 对 应 来 自 集 A, 的 操作 ; 

4) 没有 操作 对 应 来 自 集 A» 的 状态 。 

在 这 种 情况 下 ,设计 OT 电路 有 必要 改良 来 自 集 A, 的 状态 代码 。 其 次 ， 应 该 
执行 来 自 这 些 状态 的 转换 。 可 以 完成 用 于 解决 这 个 问题 如 下 : 

1) 删除 这 些 结构 表 的 行 ， 对 于 这 些 行 ， 当 前 和 下 一 状态 属于 4 (它们 的 代码 
是 已 经 决定 了 的 )， 它 可 以 完成 ， 如 果 转 换 的 一 些 操作 对 应 这 些 转换 ， 则 命名 结果 
表 为 转换 综合 表 (Synthesizable Table of Transition, STT) ; 

2) 编码 来 自 集 4, 的 状态 ,使 用 任意 独特 、 来 自 可 接受 范围 的 代码 ; 

3) 考虑 到 状态 代码 为 二 进 制 向 量 且 使 用 STT， 这 里 构建 布尔 函数 系统 ， 执 行 
来 自 状 态 A, 的 转换 ; 

4) 视 结果 SBF 为 转换 的 单 操作 ，00 ,1。 这 
个 操作 提供 存在 的 OT 集 ， 以 这 样 的 方式 执行 所 
有 的 内 状态 转换 。 设 计 组 合 电 路 对 应 这 个 系统 ， 
通过 独特 的 代码 W Vou ) 编码 操作 06.4 o 

命名 有 增补 OT 的 OAT 执行 从 A 的 状态 转 
换 为 有 增补 状态 操作 集 的 转换 操作 自动 化 
(OATS) 。 其 操作 部 分 的 组 织 类 似 图 9. 4。 

OATS 的 积极 特色 是 任意 GSA 使 用 任何 指定 
的 OT 集 综合 FSM 的 可 能 性 。 这 个 方法 的 缺陷 是 
随 着 增补 OT 执行 转换 数量 的 增加 而 增加 了 硬件 
总 量 。 

讨论 基于 GSA D, 的 Moore FSM 的 OATS 综合 
例子 ， 如 图 9. 15 所 示 。 在 本 章 参考 文献 [3] 中 
提出 的 方法 用 于 综合 。GSA Py, 由 如 下 参数 形成 : 
它 包 括 M =12 个 微 操作 集 a, ~ ap AL =2 个 逻辑 
ARV x, 和 x,。 微 操作 在 操作 顶点 的 分 布 不 影响 设 
计 进程 。 鉴 于 此 ， 操 作 顶 点 的 内 容 没 有 明确 要 求 。 
意味 着 GSA D HAH. 

令 如 下 OT 集 被 设置 为 0 = (0,,0,,0,]1, 图 9. 15 DEBE SR 
其 元 素 决定 为 


0,: Ait} -| 








A' +3, x, =0 
A +5, x, 20 
A'+3, x, =0 
A' +5, x, =0 
Oy, A aA’ 43 


0,: A?! -| 
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构建 对 于 GSA Ti 的 Moore FSM 的 结构 表 见 表 9.3。 表 9.3 包括 如 下 行 : o 是 
当前 状态 ; K(a;) 是 当前 状态 代码 ; OT 是 来 自 状态 a; 的 转换 操作 代码 ; a; 是 转换 
状态 ; Klaj) 是 转换 状态 代码 ; X 是 逻辑 条 件 ， 在 a; 转换 到 a, 期 间 检查 。 在 表 9. 3 
中 ， 代 码 对 应 所 有 状态 和 大 量 转 换 操 作 。 

表 9.3 转换 表 (GSA T) 















































a; K(a;) OT a; K(a) X 
a, 0 0, ay 5 x, 
a, 3 ET 
a 3 | 05 a, 8 x 
ds 6 % 
a; 14 * a 3 1 
ay | 8 1 0; ds 11 1 
as 11 0, az 14 1 
06 6 04 ag 9 1 
a, 9 04 ag 12 1 
dg | 12 0; ag 15 1 
dy 15 * aip 4 1 
aio 4 0, a; 9 xi 
aiz 7 x, 
ay, 5 * aiz th 1 

















这 里 指出 对 于 如 下 无 条 件 转换 是 没有 转换 操作 的 : 从 a, 到 a2, 从 ag 到 igs 
从 au 到 az。 它 连接 到 这 个 事实 ， 即 没有 介 于 指定 的 能 够 使 K(a' ) 转换 到 Ka!) 
实现 的 操作 。 这 里 通过 操作 0, 增补 OT 集 ， 用 于 执行 上 面 提 到 的 未 编码 转换 。 为 
了 实现 如 此 ， 表 现状 态 代 码 为 4 位 二 进 制 数 ， 使 用 变量 T, - T, 用 于 编码 。 例 如 ， 
4> K( as) =11,) =1011,. 

构建 综合 的 结构 表 ， 其 中 状态 代码 由 对 应 的 二 进 制 值 表 达 ， 见 表 9.4。 在 这 个 
表 中 ,， 列 刀 包 括 输入 存储 函数 ， 用 于 载 人 寄存 器 RC. 

表 9.4 综合 结构 表 (GSA Da) 
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D, =0 l 

D STALT V FT 

D, = KRAT V LET 

D, = D 

这 里 设计 对 应 这 个 系统 的 组 合 电 
路 。 它 给 出 CC 执行 OT O,, WE, OT 
0, dE dé 9.3 中 指出 ,而 不 是 符号 
“x*”。 这 里 指出 对 于 操作 O -0,, CC 
以 简单 方式 综合 。 这 个 方法 的 结果 如 图 
9. 16 所 示 。 

为 了 提供 具有 OAT 的 FSM 的 正确 
操作 ， 有 必要 找到 模块 BOT 的 PROM 
的 内 容 。 使 用 变量 WA, Y 以 如 下 二 进 
制 代码 编码 操作 0, ~ 04: K( 01) -00, 
K(0,) 201,K(0,) 210, K(0,) 211, 
PROM 的 内 容 是 基于 对 应 细胞 地 址 的 状 
态 代码 和 对 应 细胞 内 容 的 OT 代码 构建 
的 。 对 于 GSA Ti, PROM 的 内 容 对 于 
模块 BOT 表现 见 表 9. 5。 

这 里 解释 这 个 表 。 代 码 10 5 A A 
胞 ， 具 有 地 址 1011。 它 已 经 完成 了 ， 
因为 来 自 as 的 转换 状态 有 代码 1011, 










K(az)=9 


+3 03 


K(ag)=12 


+3 O03 


K(ag)-15 














图 9. 16 GSA 六 的 状态 和 操作 代码 


使 用 有 代码 10 的 OT O, 执行 。 细 胞 中 有 任意 值 和 地 址 1101。 它 已 经 完成 了 ， 因 为 
这 里 没有 含有 代码 1101 =13io 的 状态 。 细 胞 中 有 任意 值 和 地 址 0111。 它 已 经 完成 
了 ， 因 为 代码 0111 对 应 最 终 状 态 cz ， 没 有 离开 转换 。 

表 9.5 模块 BOT 的 PROM HAA 





























地 址 内 容 地 址 内 容 
K(a;) V, V, K(a,) V,,w, 
0000 00 1000 11 
0001 x 1001 11 
0010 xo 1010 六 六 
0011 01 1011 10 
0100 01 1100 10 
0101 11 1101 *o 
0110 10 1110 11 
0111 KE 1111 11 
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FSM 的 进一步 综合 减少 到 操作 部 分 的 逻辑 电路 的 综合 。 如 果 微 操作 集 已 知 ， 
则 对 于 BMO, PROM 的 内 容 可 以 获得 。 


9.7 © OAT 的 FSM 的 有 效 性 研究 


对 于 传统 Moore FSM， 硬 件 总 量 的 增加 与 内 状态 转换 的 数量 增加 是 成 比例 的 。 
有 必要 找到 转换 操作 的 最 小 集 ， 可 用 于 执行 所 有 的 转换 。 如 果 介 于 转换 数 和 操作 数 
之 间 的 比率 以 10 (甚至 100) 测量 ， 则 提出 的 方法 相 比 传统 方法 会 节约 大 量 的 硬 
件 。BIMF 是 FSM 最 复杂 的 模块 。 对 于 传统 Moore FSM 和 有 OAT 的 FSM (其 中 这 
个 模块 由 OP 表现 ) 它 都 为 真 。 鉴 于 此 ， 这 里 使 用 BIMF 和 OP 的 硬件 总 量 对 比 这 
两 个 模型 。 这 里 选择 硬件 总 量 最 小 化 为 优化 准则 。 
这 里 比较 有 BIMF 的 Moore FSM 和 有 OP 的 Moore FSM 的 有 效 性 。 对 于 这 个 比 
较 , 使 用 相等 的 门 (Equivalent Gate, EG) 为 标准 单元 。 正 如 采用 的 那样 ， 一 个 
EG 对 应 一 个 双 操 作 数 的 布尔 操作 ， 比 如 NAND。 
4 SBF 有 RR 个 布尔 操作 用 于 执行 BIMF 电路 。 没 有 最 小 化 ， 这 个 系统 的 每 个 乘 
积 项 表达 为 连词 Ry = Ric +R。 符 号 Ric 代 表 逻 辑 条 件数 量 的 平均 值 ， 决定 GSA 的 
所 有 状态 转换 。 在 这 种 情况 下 ， 需 要 H, 个 相等 的 门 执行 每 项 ， 其 中 
AS RES EN (9.11) 
令 每 个 等 式 中 的 数量 /等 于 V， 其 中 这 个 数字 等 于 对 于 给 定 68A 的 内 状态 转换 
的 数量 。 为 了 连接 这 些 项 ， 需 要 H., 个 相等 的 门 。 
H, =V-1 (9. 12) 
RTPA RAP IR PR ABE, LR + Ay 对 应 执行 一 个 转换 所 需 的 硬件 总 量 ， 
TER + A, 对 应 执行 系统 中 的 所 有 析 取 。 考 虑 到 对 于 给 定 FSM 有 了 个 内 状态 转换 ， 
Moore FSM 的 EG 的 数量 由 式 (9. 13) 决定 。 
H.R + (VeA tyke (V (Rc &R-1) € V-1) (9. 13) 
通常 ， 使 用 一 些 优化 方法 会 导致 Hk 值 减 少 。 考 虑 到 这 个 问题 ， 在 式 (9. 13) 
中 引入 系数 有。 这 个 系数 反映 最 小 化 程度 。 现 在 ， 式 (9. 13) 变 为 以 下 形式 : 
Hook, Bo [VetR Re) *T-1] (9. 14) 
估计 有 OAT 的 FSM 的 硬件 总 量 。 因 为 内 状态 转换 由 OAT 执行 ， 所 以 估计 模块 
中 需要 的 硬件 总 量 。 表 现 OAT 的 硬件 总 量 为 紧 随 的 两 个 器 件 的 求 和 结果 。 第 一 个 
(H,) 是 执行 转换 操作 电路 需要 的 硬件 ， 第 二 个 器 件 (H) 是 执行 结果 多 路 复 用 
必需 要 的 硬件。 
Hoar = H4 + H4 (9. 15) 
值 到 依赖 不 同 OT 的 数量 8 及 其 复杂 性 。OAT 中 的 硬件 总 量 可 以 根据 一 次 转 
换 操作 的 硬件 平均 量 (Hor) 进行 粗略 估计 。 在 这 种 情况 下 ， 值 H, 决定 为 
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H,-2Q* Hoy (9. 16) 
增加 一 次 转换 导致 Hk 值 通过 式 (9.17). 增加 。 
Hy =R-H, (9.17) 


对 于 给 定 尺 和 RLC 的 值 ， 式 (9.17) 是 常量 。 增 加 的 转换 可 以 是 无 条 件 或 有 
条 件 的 。 在 这 两 种 情况 下 ， 有 必要 定义 对 应 的 OT， 用 于 执行 这 个 新 的 转换 。 如 果 
转换 不 能 使 用 已 经 存在 的 组 合 电 路 执行 ， 则 某 些 新 的 OT 应 该 引入 对 应 的 CC. E 
会 导致 EoAr 值 通过 值 Hor 增 加 。 如 果 和 忽视 MX 中 的 硬件 的 增加 ， 则 对 于 给 定 R A 
RLC 的 值 ，How 的 值 是 常量 。 引 入 系数 到 式 (9.16) 中 。 系 数 用 于 通过 Hy 的 值 
表达 Hol f. 

Hor =k, © Hy =k, * R* H} (9.18) 

转换 操作 量 0 是 最 难 预测 的 ， 因 为 对 于 每 个 具体 的 例子 ， 它 都 依赖 GSA 结构 

和 转换 操作 类 型 。 可 以 假定 Q 的 值 是 关于 V 的 函数 ,但 是 对 于 任意 CSA， 不 太 可 

能 找到 普遍 独立 的 Q(V) 。 它 与 存在 多 种 类 型 选择 的 可 能 性 和 对 于 每 个 具体 GSA 的 
OT 数量 有 关 。 

在 对 LGSynth93 的 GSA 做 了 一 些 研究 之 后 ， 找 到 了 如 下 相关 性 QV): WRA 
Yes[0,10]， 则 每 个 新 OT 加 上 大 约 1 ~2 个 新 转换 ， 意 味 着 有 相关 性 Q= 2。 如 
果 有 Ve[10,30] ， 则 每 个 新 OT 加 上 大 约 7 ~ 10 个 新 转换 等 。 获 得 的 离散 相关 性 可 
以 表达 为 对 数 函数 ， 对 应 以 下 表达 式 : 

Q =k; + In(V/2) +2 (9. 19) 

TEXX (9.19) 中 ， 系 数 ks 在 执行 大 量 对 于 不 同 GSA 的 实验 之 后 获得 。 通 常 ， 
这 个 系数 的 范围 为 2. 5 ~5。 

考虑 式 (9. 18) 和 式 (9. 19) , 3X (9.16) 可 以 表达 为 以 下 形式 : 

H, =[k, - In(V/2) +2] «ky - R * H, (9.20) 
结果 多 路 复 用 器 产生 下 一 状态 代码 ， 有 R 位 。 由 操作 代码 控制 , R = logg 。 
MX 的 每 个 输出 都 可 以 视 为 SOP， 有 Q 项 。 考 虑 到 内 项 析 取 ， 执 行 MX 需要 的 EG 
数量 的 决定 式 如 下 : 
H,-R-*(Q-*logQ Q-1) (9.21) 
考虑 到 式 (9.19) ~ 式 (9.21), X (9.15) BAW PBR: 
Hoy = [hy ln (V2) +2] - Ej - R- HB +R- (Q-*loggQ Q-1) 
(9.22) 
决定 OAT 电路 的 有 效 性 ， 以 如 下 方式 与 BIMF 电路 对 比 : 
Four = Hk/Hoar (9. 23) 

如 果 EoAr >1， 则 有 OAT AY FSM 比 传统 Moore FSM 更 有 效 ( 从 硬件 方面 考虑 )。 
研究 式 (9.23) 去 寻找 其 与 不 同 器 件 的 相关 性 。 令 以 下 参数 是 常量 ， 有 如 下 值 : R= 
10, V=2000, Ric =2, ky =0.8, ky 230, k, =3.5。 获 得 以 下 图 进行 研究 : 

(1) 相关 性 Eoar(V) 见 表 9.6 和 图 9. 17。 显 然 ， 对 于 给 定 的 参数 值 范围 ， 函 
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数 是 线性 的 。 对 于 给 定常 数 ， 有 OAT 的 FSM 变 得 更 加 有 效 ， 从 了 >800 开始 。V 的 
增长 会 导致 有 效 性 的 增加 。 

(2) 相关 性 Eoar(R) 见 表 9.7 和 图 9. 18。 从 图 9. 18 中 结果 可 以 看 出 ， 研 究 的 
函数 以 指数 方式 衰减 。 对 于 给 定 参 数 范围 ， 它 趋 于 2. 05。 对 于 整个 尺 域 ， 有 OAT 
的 FSM 比 有 BIMF 的 FSM 更 有 效 。 

39.6 kil Eorl V) 


V 200 | 400 600 | 800 | 1000 | 1200 | 1400 | 1600 2000 
Eoyr 0.56 | 0.78 1.41 | 1.60 | 1.80 2.18 














0.5 
0 500 1000 1500 2000 
y 
图 9.17 依赖 性 Eoar (V) 
表 9.7 依赖 性 Loar (RR) 
R 3 4 5 6 7 10 15 20 25 30 








(3) 相关 性 Eo sr (Ay) 见 表 9.8 和 图 9. 19。 对 于 输入 存储 函数 系统 ， 图 9. 19 
表现 最 小 化 系数 的 增加 ， 导 致 有 OAT 的 FSM 的 有 效 性 线性 增加 。 如 果 没 有 最 小 
化 ， 则 最 高 有 效 性 达到 值 2. 29。 只 有 最 小 化 简化 函数 系统 达到 60% ， 有 BIMF 的 
FSM 变 得 比 有 OAT 的 FSM 更 有 效 。 


2.45 








0 5 10 15 20 25 30 
R 


图 9.18 依赖 性 Eoat(R) 
(4) 相关 性 Eoar( ky) 见 表 9.9 和 图 9.20。 图 9. 20 的 分 析 表 明 有 OAT 的 FSM 
的 有 效 性 随 着 执行 转换 操作 的 组 合 电 路 的 复杂 性 的 增加 而 减少 。 对 于 给 定 参 数值 ， 
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有 效 性 从 ky » 65 开始 减少 。 

(5) 相关 性 Eg qz (hs) 0,269. 10 和 图 9.21。 图 9. 21 中 的 指数 衰减 解释 为 指数 
函数 式 (9.19) WARM, 的 影响 。 随 着 A, 的 增加 ，OT 量 的 增加 比 转换 数量 的 增 
WER, WRA k, >8， 则 有 OAT 的 FSM 的 硬件 量 超过 有 BIMF 的 FSM 的 这 个 值 。 
为 了 减少 局 的 值 ， 有 必要 正确 选择 转换 操作 。 

表 9.8 依赖 性 Eoar (ky) 
ky R ; 0.4 0.45 0.5 0.6 0.7 0.8 i 1.0 
Eoar A 5 1.09 1.23 1.36 1.64 1.91 2.18 1 2.13 

















02 04 06 0.8 l 
h. 
图 9.19 依赖 性 Epor (hy) 


表 9.9 a 

















+ a a A 

















图 9.20 依赖 性 Eoyr (kz) 
9.10 依赖 性 Eoar (Ki) 








以 下 结论 可 以 从 完整 地 分 析 图 9. 17 ~ 图 9. 21 得 出 。 以 下 因子 会 导致 有 OAT 的 
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ks 
图 9.21 依赖 性 Zour (hg) 

FSM 的 有 效 性 增加 ， 与 有 BIMF 的 FSM 相 比 : 

1) 增加 内 状态 转换 的 数量 ; 

2) 减少 状态 代码 中 的 位 数 〈 在 理想 情况 下 ， 对 于 给 定 的 GSA， 这 个 数量 应 该 
是 可 能 的 最 小 值 ) ; 

3) 执行 CSA， 对 于 输入 存储 函数 的 系统 不 能 进一步 最 小 化 ; 

4) 减少 执行 转换 操作 的 组 合 电 路 的 平均 复杂 性 ( 因此 ， 应 该 选择 会 导致 简化 
组 合 电路 的 操作 ) ; 

5) 对 于 任意 CSA， 其 内 状态 转换 数量 的 增加 会 导致 转换 操作 质量 的 增加 ， 而 
构建 转换 操作 集 使 用 的 特殊 方法 会 最 大 限度 减少 这 种 增加 。 
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附录 A 本 书 使 用 的 VHDL 结构 和 其 他 支持 材料 


摘要 一 一 这 里 关于 本 书 使 用 的 VHDL 可 综合 结构 和 关键 字 (保留 字 ) 的 简要 
言 息 以 字母 排序 ， 并 补充 简要 描述 。 这 里 还 有 一 些 有 用 的 表格 (de ASCII), FEHR 
各 章节 需要 的 数据 。 
绝对 值 一 一 abs 

这 是 一 元 操作 符 ， 为 数值 类 型 定义 ,返回 操作 数 的 绝对 值 。 见 2. 2 节 的 
实例 。 
Aggregate 


这 是 值 组 ， 用 于 形成 阵列 或 记录 表达 式 。 在 位 置 关联 时 ， 值 和 器 件 从 左 向 右 关 
联 。 命 名 关联 明确 了 每 个 值 。 注 意 ,位置 关联 不 能 跟随 命名 关联 。 实 例如 下 : 
-一 以 下 合计 用 于 复制 记录 (位置 关联 ): 


-- Aggregates below are used in order to assign a record (positional association): 


record data <= ('0', '1',"01"); -- record. data 是 类 my. packet ( 见 下 ) 的 信号 
type my_packet is record -- 见 下 
first bit, second bit :std logic; 
data : Std logic vector (1 downto 0); 
end record; 
元 素 可 以 按 命名 关联 成 组 ， 其 中 关键 字 others 表示 剩余 的 元 素 。 
(0=>bit3, 2=>bit2, 1=>bit1, 3=>bit0) -命名 关联 实例 


A(7 downto 0) <=(7=>'0', 5 downto 4 => '0' others => '1'); -- 命名 关联 实例 


Aggregate 和 Array 
见 以 下 实例 。 二 位 阵列 声明 如 下 〈 阵 列 和 索引 可 以 是 信和 号 或 变量 ) : 
type my array is array (3 downto 0) of sid logic; -- type 是 一 维 阵列 


type my. packet is array (0 to 9) of my array; — -- type 是 二 维 阵列 
signal my data : my packet; - my data Jb — HERES 
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假定 以 下 声明 在 结构 体 完成 


type array2vect is array (0 to 1) of std_logic_vector(1 downto 0); 

type array4vect is array (0 to 3) of array2vect; 

signal table : array4vect; ~ table 是 三 维 阵列 
signal table_line : array2vect; -- table line 是 二 维 阵列 
signal table_data: std_logic_vector(1 downto 0); -- table_data 是 一 维 阵列 


不 同 结果 可 在 结构 体 使 用 板 集 LED 测试 : 
led <= table(0)(0) & table(0)(1) & table(1)(0) & table(1)(1) & - M6 AP LED AT 
table(2)(0) & table(2)(1) & table(3)(0) & table(3)(1); -- LED: led(15 downto 0) 


以 下 语句 赋值 给 所 有 的 LED 使 其 值 为 “1”( 即 LED 2$) : 


table <= (others=>(others=>(others=>1))); 


以 下 语句 给 出 注释 的 结果 : 

-- 结果 如 下 : led(15 downto 0) = 00 01 10 11 11 00 10 01 

table <= (("00","01"),("10","11"),("11","00"),("10","01")); 

-- sw(15 downto 0) 以 相同 的 索引 连接 led(15 downto 0) 

table <= ((sw(15 downto 14), sw(13 downto 12)), (sw(11 downto 10), sw(9 downto 8), - # 
(sw(7 downto 6), sw(5 downto 4)), (sw(3 downto 2), sw(1 downto 0))); -# 


— 结果 如 下 : led(15 downto 0) = 00 00 01 11 O1 11 00 00 
table <= (1 to 2 =>(1=>(others=>'1'), 0=>"01"), others=>(others=>(others=>'0’))); 


— 结果 如 下 :ledll5 downto 0) = OI 10 11 00 00 01 10 11 
table <= (0 =>(0=>"01", 1=>"10"), 1 =>(0=>"11", 1=>"00"), 
2 =>(0=>"00", 1=>"01"), 3 =>(0=>"10", 1=>"11")); 


一 以 下 (| downto 0) 控制 led(15 downto 14), 
-- sw(3 downto 2) control led(13 downto 12), etc. 
table <= (0 =>(0=>sw(1 downto 0), 1=>sw(3 downto 2)), 
1 =>(0=>sw(5 downto 4), 1=>sw(7 downto 6)), 
2 =>(0=>sw(9 downto 8), 1=>sw(11 downto 10)), 
3 =>(0=>sw(13 downto 12), 1=>sw(15 downto 14))); 


-以 下 进程 中 ,sw(15 downto 0) 以 相同 的 索引 连接 leds(15 downto 0) 


process(table) 
begin 
for i in array4vect'range loop 
for j in array2vectrange loop 
led(i*4+j*2+1 downto i*4+)*2) <= table(i)(j); 
end loop; 
end loop; 
end process; 


一 以 下 代码 中 ，sw(7 downto 4) ji] led(3 downto 0), 前 文 用 # 标 记 的 赋值 语句 
table_line <= table(2); 


led <= (15 downto 4 => '0') & table line(0) & table line(1); 


-- the table line is linked with different groups of 4 switches depending on the values of two buttons 

table_line <= table(3) when buttons = "11" else -- we assume the use of 2 buttons 
table(2) when buttons = "10" else -- we assume the assignment above marked with # 
table(1) when buttons = "01" else 
table(0); -- Fifi AY) LED 3 HR WI JF GAEL 

led(3 downto 0) <= table line(1)(0) & table line(1)(1) & table line(0)(0) & table line(O)(1); 


Alias 
声明 人 允许 多 个 命名 定义 目标 。 别 名 声明 可 在 声明 部 分 完成 。 别 名 声明 方法 
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TM 


AT: 
Alias < 新 的 名 字 > is < 现 有 的 标识 符 > ; 





All 


在 包 或 库 中 定义 声明 ， 例 如 use ieee. std logic | 1164. all. 
Architecture 


以 如 下 普通 模板 说 明 : 
architecture < 结构 体 名 > of < 实体 名 > is 
~ 声明 部 分 
~ 声明 (信和 号， 器件， 函数 ， 过 程 ) 
- 定义 (类 ) 
begin 
-- 结构 体 
end < 结构 体 名 >; 


Array 


以 如 下 普通 形式 声明 
type < 类 型 名 > is array < 阵列 范围 > of < 元 素 类 型 >; 


ASCII 表 
该 表 提 供 128 个 字符 的 代码 。 表 A. 1 给 出 了 33 个 特殊 的 字符 (代码 0，…， 


31, 127), X A.2 给 出 了 剩余 的 95 个 打印 字符 (代码 32，…，126)。 
RAL 控制 字符 的 ASCH 代码 












































代码 名 称 

0 无 

1 soh (标题 开始 ) 
2 stx (文本 开始 ) 
3 etx (文本 结束 ) 
4 eot (传输 结束 ) 
5 enq (询问 ) 
6 ack (确认 信和 号) 
7 bel ( 钟 ) 

8 bs ( 退 格 符 ) 
9 ht (横向 制 表 符 ) 
10 f (íT) 

11 vt. ( 竖 向 制 表 符 ) 
12 ff (AH) 
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代码 名 称 

13 L. er ( 回 车 ) 

14 so (移出 ) 

15 si (EA) 

16 dle (数据 通信 换 码 ) 
17 dcl (装置 控制 1) 
18 dc2 (装置 控制 2) 
19 d3 (装置 控制 3) 
20 de4 (装置 控制 4) 
21 nak (否定 确认 信号 ) 
22 syn (同步 空 闪 ) 
23 etb (传输 块 结束 ) 
24 can (取消 ) 

25 em (媒介 结束 ) 
26 sub (替代 ) 

27 esc (退出 ) 
28 fsp (文件 分 隔 符 ) 
29 gsp (组 分 隔 符 ) 
30 rsp (记录 分 隔 符 ) 
31 usp 〈 单 元 分 隔 符 ) 
127 del (删除 ) 





表 A.2 95 个 打印 字符 的 ASCII 代码 


代码 +0 +1 +2 +3 +4 +5 +6 +7 
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Assert 








描述 必须 评估 的 条 件 ， 通 常用 于 报告 警告 和 错误 信息 (细节 见 2.5 节 )。 
Attribute 


确定 目标 的 命名 特性 ， 人 允许 约束 直接 在 代码 中 描述 。 本 书 中 只 定义 了 使 用 的 属 
性 (存在 的 type，array 和 signal) 。 定 义 形 式 为 type/array/signal' < NAME OF AT- 
TRIBUTE > Event 属性 举例 ， 对 于 信号 clk 为 if clk'event and clk = ‘1’ then-- 
(时 钟 从 0 改变 到 1， 即 相同 的 对 于 if rising edge (clk) then …) 或 clk'event and 
clk= “0”then… (时 钟 从 1 改变 到 0， 即 相同 的 对 于 if falling _ edge (clk) then 
…)。 其 他 有 用 的 属性 实例 如 下 : 

1) 测试 递增 范围 ， 例 如 led flash < = divided _ clk when not led'ascending else 
*1'; 如 果 LED 是 递减 范围 ， 则 led flash 得 到 划分 时 钟 值 ; 

2) 类 的 最 高 值 integer'high; 

3) Æ lv 的 终 事件 之 前 测试 终 值 ly， 例 如 last led < = lv (3)'last value; 

4) 左边 索引 signal'left。 考 虑 如 下 实例 :， internal _ clock (internal _ clock'left) , 
其 中 internal _ clock 的 类 是 std _ logic _ vector; 

5) 维度 长 度 array'length， 例 如 my _ RAM (i) length, 

6) 类 内 的 位 置 type'pos (++). fi) Ml character’ pos (‘A’) 返回 ASCH 表 中 
“A” 的 位 置 为 65 ; 

7) Æ downto/to 右 在 阵列 中 array'range， 例 如 for i in input'range loop; 

8) Æ downto/to 左 在 阵列 中 array’reverse _ range， 例 如 for i in input’ reverse _ 
range loop; 

9) 右边 索引 signal'right。 例 如 internal _ clock (internal _ clock'right)， 其 中 in- 
ternal clock 的 类 是 std _ logic _ vector, 

以 下 代码 是 用 户 定义 的 属性 实例 : 





attribute LOC : string; -~ specifying location constraints 

attribute LOC of led: signal is "P2"; — -- the led signal is assigned to the pin P2 

attribute IOSTANDARD : string; -- specifying input/output standard 

attribute IOSTANDARD of led: signal is "LVCMOS33"; -- see the user constraints file for Nexys-4 
Begin 


标记 进程 /函数 /过 程 的 声明 或 结构 体 开 始 ， 在 进程 /函数 /过 程 的 声明 部 分 结 
束 。 也 用 于 其 他 结构 ， 比 如 块 和 在 普通 语句 描述 多 例 。 
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Block 
设计 中 的 并 性 语句 简化 划分 ， 使 用 以 下 基本 格式 声明 (实例 见 2.4 35) : 


«OPTIONAL LABEL»: block («OPTIONAL BOOLEAN GUARD EXPRESSION») is 
begin 

并行 语句 
end block < 可 用 标号 >; 


Body 
包 (package) 的 保留 字 (JL package), 
Buffer 


用 于 接口 ， 使 相关 信号 可 读 写 。 这 样 的 接口 拥有 不 多 于 一 个 资源 ， 可 连接 到 另 
一 个 缓冲 或 拥有 不 多 于 一 个 资源 的 信号 。 区 别 于 inout 接口 ，buffer 接口 不 能 连接 到 
三 态 总 线 (J inout) ， 它 们 允许 输出 信号 在 模块 中 声明 为 接口 并 在 模块 中 可 读 。 


Case 


该 语句 具有 如 下 的 普通 格式 : 

case < 表达 式 > is 
when < 表达 式 的 值 > => < 语句 >; 
~ 其 他 值 : when < 表达 式 的 值 > => < 语句 >; 
when others => < 语句 >; 

end case; 


case 语句 用 于 进程 、 函 数 和 过 程 中 ,不 能 直接 用 于 结构 体 ( 如 果 要 求 when… 
else ， 则 可 以 应 用 在 结构 体 )。 以 下 简单 实例 例证 case 语句 的 应 用 : 


process(A, B, C) -- A,B,C are integers: signal A,B,C: integer range 0 to 7; 
begin 
case (A+B+C) is — A+B+C is the evaluated expression; 


when 1 to 3 | 5 | 10 => led <='1'; -- when A+B+C = | or 2 or 3 or 5 or 10 
when others => led <= '0'; 

end case; 

case (A+B+C)>12 is 
when true => led1 <='1'; -- when A+B+C is greater than 12 
when others => led1 <= '0'; 

end case; 

end process; 


Component 


较 高 级 实体 的 声明 ， 使 较 低 级 实体 实例 化 。 以 下 两 个 模板 可 用 于 器 件 声明 和 实 
例 化 : 
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component < 器 件 名 > 
generic ( 
< 属性 名 > :< 类 型 = < 属性 名 的 默认 值 >; 
<other generics...> ); 
port ( 
< 接口 名 > :< 接口 模式 如 jin, out, inout, buffer» < 类 型 >; 
< 其 他 接口 .> ); 
end component: 


< 例 化 名 > :< 器 件 名 > 
generic map ( < 位 置 关联 或 命名 关联 > ) 
port map (< 位 置 关联 或 命名 关联 > ); 


注意 ， 位 置 关联 不 能 紧 随 命名 关联 。 

器 件 实体 可 包含 在 库 中 。 命 名 为 work 的 库 默 认可 用 。 以 下 代码 例证 这 个 库 的 
使 用 ， 没 有 明确 的 器 件 声明 : 

u1: entity work.half_adder port map(A, B, s2, s1); -- using the default library work 

不 同名 字 的 库 也 可 以 创建 (052.6 节 )。 本 书 的 大 部 分 实例 使 用 默认 库 work, 
没有 明确 的 器 件 声明 。 


Constant 


可 以 在 任何 声明 部 分 声明 。 常 量 值 不 能 改变 。 
constant < 常量 名 > :< 类 型 >:=< 用 户 值 >; 


举例 如 下 : 


constant line_with_equal_sign : string(1 to 3) := "="; -- the symbol = is placed in between two spaces 
constant ternary_vector — :std logic vector(5 downto 0) := "01-1-0"; 

constant my_integer : integer := 7; 

constant line1 : string(7 downto 1):="Index:" & CR; -- CR is a non-printing character 
constantbinary constant :std logic vector(5 downto 0) := "011100"; 


VHDL 实体 (test const) 例证 如 下 : 
entity test_const is 
port ( sw :in std logic vector (2 downto 0); 
led : out std logic vector (6 downto 0)); 
end test const; 


architecture Behavioral of test, const is 


constant binary :Std logic vector(6 downto 0) := "0101010"; 

constant octal :std logic vector(6 downto 0) :=0"12" &'1'; 

constant hexadecimal ^ :std logic vector(6 downto 0) :=x"a" & o'5"; 

constant decimal : integer = 63; 

type rom is array (0 to 3) of std logic vector (6 downto 0); 

constant ex :rom :=(x"6" & 0"3", x"8" & "101", '1' & 0°45", o"3" & '0' & 0"2"); 

begin 

led <= binary when sw="001"else ~ the result: 0101010 
octal when sw = "010" else ~ the result: 0010101 
hexadecimal when = sw=""011" else -- the result: 1010101 
ex(0) when sw-"100"else -- the result: 011001 I 
ex(1) when Sw = "101" else -- the result: 1000101 
ex(2) when sw = 110" else -- the result: 1100101 
ex(3) when sw 2 111" else -- the result: 0110010 
conv std logic vector(decimal,7); -- the result: OLLEITI 


end Behavioral; 
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转换 函数 
转换 类 型 ( 见 type conversion 和 2.2 节 )。 
Downto 
声明 范围 方向 ， 例 如 A (7 downto 0) 。 
End 
结束 进程 /函数 /过 程 /结构 的 描述 (语句 )。 也 用 于 其 他 结构 ， 如 block 和 gen- 


erate 语句 o 


Entity 
描述 设计 模块 的 输入 和 输出 。 以 如 下 普通 模板 例证 : 
entity < 实体 名 > is 
generic ( < 属性 名 > :< 类 型 > z «) fü»; 
< 其 他 属性 .…> ); 

port ( < 接口 名 > :< 接口 模式 如 in, out, inout, buffer > «type»; 

< 其 他 接口 .> 
y 
end < 实体 名 >， 


枚 举 类 型 
可 由 用 户 自 定义 ， 比 如 经 常 需要 的 FSM 中 列举 状态 名 ， 如 下 : 


type state_type is (init, run_state); -- there are two states in the state type: init and run state 
Exit 


强制 退出 内 循环 或 从 标记 循环 中 退出 。 在 以 下 实例 中 ， 变 量 count. (声明 为 
variable count; integer range 0 to4; =0;) 总 是 为 0， 如 果 使 用 语句 exit， 则 当 使 用 没 
有 标记 a 的 语句 时 ， 总 是 为 4。 


a; fori in 0 to 3 loop -- a is an optional label 
for j in 0 to 3 loop -- begin of the innermost loop 
if i = j then exit a; -- count is always equal to 0 with the label a 
re -- count is always equal to 4 without the label a 
end if, 
end loop; -- end of the innermost loop 
count := count+1; 
end loop a; -- a is an optional label 


File 


提供 具有 存储 器 件 设计 的 通信 类 型 。File 实例 见 2.6 节 。 另 一 个 实例 函数 
read array 见 2.6 45, 使 用 while 循环 从 文件 data. txt 读数 据 。 
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impure function read_array (input_data : in string) return my_array is 


file my file — : text is in input_data; 
variable line_name: line; 
variable a name :my array; 
variable index : natural; 
begin 
index := 0; 
while not endfile(my file) loop 使 用 函数 endfile(fie) [2] 


readline (my_file, line_name); 
read (line name, a_name(index)); 
index := index+1; — index 增加 ， 直 到 达到 文件 尾 
end loop; 
return a_name; 
end function; 


以 下 实例 关于 写 入 文件 : 
library IEEE; 

use IEEE.STD_LOGIC_1164.all; 

use IEEE.STD_LOGIC_UNSIGNED..all; 
use IEEE.STD LOGIC arith.all; 

use IEEE.STD LOGIC TEXTIO.all; 
use STD.TEXTIO.all; 


entity WriteToFile is 
generic (M : integer := 32; 
: integer := 1024); 
port (const bit: out std_logic; 
bit number: in integer range 0 to 14); 
end WriteToFile; 


architecture Behavioral of WriteToFile is 一 打开 文件 人 Fie bt 用 于 写 
file generic and constants : text open write mode is "MyFile.txt"; 
constant oct const: std logic vector(14 downto 0) :=0"37145"; 








begin 

process(bit number) -- combinational process 
variable file line : LINE; 

begin 
write(file line, string (" ") ~ 准备 串 ” 
writeline(generic_and_constants, file_line); ~ ERE" 
write(file line, string'("M ="); - 准备 串 "M =" 
write(file_line, M); -~ 准备 属性 值 M 
writeline(generic_and_constants, file line); - YER t M 
write(file line, string'("N = ")); ~ 准备 串 和 属性 值 "N=" 
write(file_line, N); ~ 准备 属性 值 N 
writeline(generic_and_constants, file_line); -准备 串 和 属性 值 N 
write(file_line, string ("The maximum value of an integer: ")); -- 准备 串 ... 
write(file_line, integerhigh); -- preparing the value of the largest integer 
writeline(generic and constants, file line); -- recording the prepared string and value 
write(file_line, string ("Decimal value of octal constant: ")); ~ preparing the string ... 
write(file_line, conv_integer(oct_const)); ~ converting the octal constant to integer 
writeline(generic_and_constants, file line); -- recording the converted value 
for i in 3877 to 3879 loop -- this loop records binary values of the index i in the file 


write(file line, conv std logic vector(i,12));-- converting integers to std. logic vector 
writeline(generic and constants, file line); -- recording the std logic vector 

end loop; 

const bit <= hex const(bit number); -- other statements 
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-- the remaining part of the code 
end process; 


-- the remaining part of the code 


end Behavioral; 


假定 模块 WriteToFile 是 另 一 模块 的 器 件 ， 声 明 如 下 : 
entity Top is 

generic (M: integer := 16; N: integer := 512); 

port -- descriptions of ports 
end Top; 


architecture Behavioral of Top is 
begin 
test: entity work.WriteToFile 
generic map (M, N) 
port map (const_bit, bit_number); 


end Behavioral: 


文件 MyFile. txt 在 综合 时 创建 ， 构 成 以 下 内 容 : 


M=16 

N=512 

The maximum value of an integer: 2147483647 
Decimal value of octal constant: 15973 
111100100101 

111100100110 

111100100111 


包括 实体 Top 提供 的 属性 值 。 

文件 对 初始 化 阵列 (ROM)、 仿 真 时 读 激励 等 任务 有 用 。 在 库 std 中 定义 的 包 
textio 收集 有 用 的 函数 、 类 型 和 操作 ， 这 些 允 许 从 设计 中 读 / 写 文件 。 其 他 细节 见 本 
章 参考 文献 [1, 2]。 


For 


语句 允许 在 generat Fil loop £&Tgrpz MBAR, dus THALA? PEAR for 
-loop 可 用 于 进程 、 函 数 和 过 程 。 假 定 声明 以 下 信号 : 


signal vector : std_logic_vector(N-1 downto 0); 


以 下 内 容声 明 for 语句 实例 : 

«OPTIONAL LABEL>: for i in vector'range loop -- 1) 使 用 向 量 元 素 N-1 到 0 
- 必须 赋值 的 逻辑 语句 

end loop <OPTIONAL LABEL>; 


for i in vector'reverse_range loop -- 2) 使 用 向 量 元 素 0 到 NI 
- 必须 赋值 的 逻辑 语句 
end loop; 
for i in N-1 downto 0 loop ~ 3) ERES] OE HH NH EY 0 
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~- 必须 赋值 的 多 辑 语句 
end loop; 


for i in a downto b loop -- 4) 使 用 元 素 a 到 b (a2b, a<N, b20) 
-必须 赋值 的 逻辑 语句 
end loop; 


for i in vectorleft downto vectorrightloop ”-- 5) 使 用 元 素 N-1 到 0 
-必须 赋值 的 逻辑 语句 
end loop; 


Function 


计算 单 值 ， 总 是 以 return 语句 结束 。 声 明 模 板 如 下 : 
function < 函数 名 > (< 输入 参数 列表 >) return < 类 型 > is 
< 声明 部 分 > 
begin 
- 时 序 语句 (函数 体 ) 
end «riz 4»; 
输入 参数 可 以 不 约束 ， 即 它们 没有 上 下 界 。 函 数 体 类 似 组 合 进程 体 。 


2.4 节 主 要 讲解 简单 函数 实例 。 


Generate 


结构 用 于 例 化 器 件 阵列 ， 人 允许 赋值 并 行 语句 。 模 式 for 和 让 可 应 用 ， 见 如 下 实 


fi) (Al A. 1 所 示 为 给 定 input _ vector 的 output _ vector) : 


input vector (entity OneBitComparator is 
port( A, B :in std logic; 
MaV, MiV: out std logic); 
end OneBitComparator; 
architecture Behavioral of OneBitComparator is 
一 begin 
process(A,B) 
begin 

















end process; 
output vector | end Behavioral; 


图 A.1 输入 /输出 向 量 实例 和 1 位 比较 器 的 VHDL 代码 





entity Test_generic is 
generic( N : integer := 8); 
port (input vector — :in std logic vector (N-1 downto 0); 
output vector — : out std logic vector (N-1 downto 0)); 
end Test generic; 


architecture Behavioral of Test generic is 
begin 
example: for i in N-1 downto 0 generate 
exchange: if (i >= 2 and i <= 3) generate 
for example: entity work.OneBitComparator 


ifA>=B then MaV «-A; MiV«- B; else MaV «-B; MiV <=A; end if; 
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port map( input_vector(i), input_vector(i+2), output_vector(i), output_vector(i+2)); 
end generate exchange; 


copy: if (i < 2) generate 
output_vector(i) <= input_vector(i); 
output_vector(i+6) <= input_vector(i+6); 
end generate copy; 


end generate example; 


end Behavioral; 
Generic 


提供 特定 常量 到 实体 和 器 件 中 。 可 包括 默认 值 ， 可 在 属性 映射 没有 其 他 明确 值 
时 使 用 。2. 5 节 中 有 关于 属性 的 简单 实例 。 属 性 映射 结构 允许 默认 属性 值 在 较 低级 


模块 改变 。 
保护 信号 

允许 并 行 语句 只 在 块 中 的 保护 条 件 为 真 时 执行 ( 见 2.4 节 的 实体 实例 Test- 
BlockGuarded ) , 
If 

条 件 语句 ， 可 用 于 进程 、 函 数 和 过 程 。 许 多 简单 实例 见 2.3 节 。 以 下 是 普通 模 
板 实例 的 if 38: 

if < 条 件 1> then < 条 件 1 为 真 时 执行 语句 > 

elsif < 条 件 2> then < 条 件 2 为 真 时 执行 语句 > 

else < 条 件 1 和 条 件 2 都 为 假 时 执行 语句 为 真 时 执行 语句 > 

end if; - then, elsif, else, end if 是 保留 字 
Impure 


函数 可 选项 ， 扩 展 函 数 外 声明 的 变量 和 信和 号 的 范围 即 可 在 函数 内 使 用 。 因 此 ， 
impure 函数 (对比 pure 函数 ) 对 于 相同 参数 可 能 返回 不 同 值 ( 见 2.4 节 )。 





In 

接口 模式 ， 允 许 接口 只 读 。 如 果 接口 模式 没有 声明 ， 则 默认 为 im。 
Inout 

双向 接口 模式 〈 读 写 ) Inout 主要 用 于 三 状态 接口 ， 可 以 是 output 和 input, 
可 用 于 信号 MyBus， 赋 值 如 下 : MyBus < = MylntBus when (MyWr = “1 ) else 
(others = > “Z’ );。 当 需要 双向 通信 时 ，Inout 类 型 的 接口 必须 使 用 。Inout 类 型 
也 可 用 于 过 程 (JU procedure) ， 人 允许 返回 参数 值 到 调用 模块 ， 然 后 在 过 程 中 读 / 写 
这 些 参数 。 
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Is 

链接 不 同 结构 的 身份 定义 ,例如 architecture behavioral of TestTextFile is, 
Library 

允许 使 用 库 资 源 。 以 下 实例 例证 库 IEEE 和 UNISIM 的 声明 : 

library IEEE; ~ "library", "use" F0 "all" 是 保留 字 

use IEEE.STD_LOGIC_1164.all: - 细节 见 2.6 小 节 

use IEEE. STD_LOGIC_ARITH.all: ~ 细节 见 2.6 小 节 

use IEEE.STD_LOGIC_UNSIGNED.all; -- 细节 见 2.6 小 节 

library UNISIM; -- 如 果 使 用 Linux 原 语 和 商用 库 则 必须 包含 这 行 

use UNISIM.VComponents.all; 


FE work 不 需要 声明 。 用 户 定义 的 库 必 须 明 确定 义 (实例 见 2.6 节 )。 
Literal 


设计 中 明确 的 值 ， 以 数字 、 字 符 、 字 符 串 或 位 串 的 形式 出 现在 表达 式 中 。 

(1) 数字 表现 为 整数 和 实数 (可 综合 工程 不 能 定义 实数 )。 十 进 制 整数 ， 例 如 
45、0 和 1872， 基 数 可 以 不 为 10。 在 这 种 情况 下 ， 数 字 可 以 包围 在 符号 # 内 ， 基 数 
可 为 2 ~16 的 任意 整数 。 例 如 ， 值 25 可 以 写 为 2 机 1 _001#， 或 16#19# 或 5#100#。 
在 数字 中 忽略 分 隔 符 〈 下 划 线 _) ， 只 是 为 了 数字 的 可 读 性 。 本 书 的 转换 可 用 于 数 
字 ， 例 如 leds (10 downto 2) < = conv std logic vector (3401 10st, 9);, 

(2) 字符 ， 单 字符 包围 在 单 引 号 内 。 例如 “3”，“f"，“S”,“”( 最 后 面 是 空 
格 )。 有 些 特殊 字符 (不 可 打印 的 ) 可 用 它们 的 名 字 指 代 (如 del) ， 例 如 signal: 
character; =del; ( 见 ASCII 表 )。 

(3) 串 是 字符 顺序 包围 在 双 引 号 之 内 。 例 如 : “this is a string”, “” (最 后 这 
个 串 是 空白 )。 两 个 串 可 以 连接 在 一 起 用 并 和 置 操作 符 (&&) 。 指 数 是 正 数 ， 范 围 可 
递增 可 递减 ， 尽 管 大 多 数 应 用 是 从 1 开始 递增 "1 。 递 减 经 常用 于 串 范围 的 默认 初 
始 化 索引 。 

(4) 位 串 表 达 二 进 制 值 囊 。 例 如 ， 二 进 制 向 量 可 描述 为 B“1 001", 其 中 B 
(X b) 为 基数 (二进制 ) 。 其 他 可 能 的 基数 可 以 是 (0 xk o) 八进制 和 CX BK x) 
十 六 进 制 。 正 如 前 所 述 ， 分 隔 符 (下划线 _) 可 忽略 。 位 串 可 以 将 合适 大 小 赋值 给 
std _ logic _ vector; SLV (2 downto 0) < =b "1 0 0", 
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表 A.3 二 进 制 逻辑 操作 的 真 值 表 


















































A B AandB AnandB | A norB not A not B A or B A xor B A xnor B 
Bl R [1 K 真 真 真 假 假 真 
Bl x [1 真 [E E [E E 真 f 
真 | R f r 假 候 A X A [7 
真 真 真 假 假 假 假 真 假 真 
Map 
关联 模块 中 的 名 字 (接口 或 属性 ) 和 外 部 的 名 字 。 可 以 使 用 位 置 和 命名 关联 。 
HAW FEB: 
divider: entity work.clock_divider ~ 位 置 关 联 


-中 和 divided_dk 是 信号 ， 在 模块 中 声明 ， 使 用 dodk_divider 
port map (clk, divided_clk); 


The entity clock_divider can be, for example, declared as: 


entity clock_divider is -5 和 d 5 是 实体 dodk_divider 的 内 部 信和 号 
port ( c : in std logic; - COSS Bj RE eS lk 
dc : out std logic); - d cxpsfs divided dock 
end clock divider; 
模 运 算 一 一 mod 


这 个 二 进 制 操作 符 为 整数 类 型 定义 。 结 果 的 符号 同 第 二 个 操作 数 ， 绝 对 值 小 于 
第 二 个 操作 数 的 绝对 值 。 定 义 为 a mod b =a -bxn， 其 中 n 是 某 个 整数 。 实 例 见 第 
2.2 f, 


Names 


用 于 标识 符 。 它 们 可 由 字母 、 数 字 和 下 划 线 组 成 。 命 名 (Name) 不 是 大 小 写 
敏感 的 ( 即 AAa 和 aAA 命名 是 相同 的 ) 。 命 名 必须 以 字母 开头 ， 不 能 以 下 划 线 结 
束 ， 不 能 包含 两 个 连续 的 下 划 线 。VHDL 保留 字 不 能 用 作 命名 。 


Next 


结束 当前 循环 的 迭代 (逻辑 复制 ) 并 初始 化 新 的 迭代 (复制 )。 很 像 语句 exit, 
next 可 以 有 可 用 标号 (如 next a;) 解释 同 exito 


Null 
表示 没有 可 执行 动作 (通常 用 于 case 和 让 语句 ， 例 如 when others = >null)。 
Of 


确认 元 素 的 命名 和 类 型 ， 例 如 type my _ array is arrar (0 to 7) of std _ logic _ 
vector (15 downto 0) 。 
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Open 


用 于 保留 明确 的 接口 不 关联 。IEEE VHDL 规范 不 允许 未 连接 的 输入 接口 ， 但 
是 允许 未 连接 的 〈open) 输出 接口 。 


操作 数 


本 书 使 用 如 下 : 阵列 集合 、 位 串 、 枚 举 、 函 数 调用 、 整 数 、 记 录 集 合 、 串 、 静 
ERRA, 、 类 型 转换 ( 见 literal) 。 


运算 符 


分 为 算术 (+, -, *, 7, abs, mod, rem, sign + #lsign-, * *), FE 
(&), 24 (and, nand, nor, not, or, xnor, xor), KA (=, /=, <, <=, 
>, >=), WH (:2, <=) 和 移 位 (rol, ror, sla, sll, sra, srl), —Jt3 4E 
符 以 特殊 符号 表示 ， 由 单个 或 成 对 字符 组 成 。 字 符 对 如 < = (如 果 它 们 对 应 操作 
符 的 话 ) 必须 紧 挨 着 ， 它 们 之 间 没 有 空格 。 逮 辑 操作 符 可 以 由 关系 操作 符 组 成 
(如 让 ( (a>b) and (c/2d)) 或 位 操作 (如 a xorb, Hep a bÆ std logic _ 
vector 信号 ， 具 有 相同 大 小 ) 。 运 算 符 根据 它们 的 优先 级 分 组 如 下 : (power- * 
*), (abs), (mot), (*), (/), (mod, rem), ( +identity, — negetion ) , 
(*,,—), (&), (rol, ror, sll, ar), (sla, sa), (2,72), (€, «E », 
>=), (and, nand, nor, or, xnor, xor), ， 开 始 的 具有 最 高 优先 级 ， 最 后 的 具有 
最 低 优先 级 。 括 号 可 用 于 改变 操作 顺序 ， 且 建议 使 用 。 


On 


用 于 wait 语句 引入 敏感 列表 ， 如 下 : wait on < 敏感 列表 > until < 布尔 表达 式 


>o 实例 如 下 : 
process - 时 序 进程 


begin ~ 对 于 组 合 进 程 下 面 的 行 修改 为 : wait on count; 
wait on count until rising edge(divided clk); 


led <= count; 
end process; = - wait 语 句 支持 受 限 ( 见 D] 中 的 约束 ) 


Others 


用 于 case 语句 的 最 后 分 支 ， 信 和 号 /变量 赋值 的 右边 不 包含 具体 的 值 ， 赋 值 给 剩 
余 的 未 赋值 的 阵列 元 素 。 实 例如 下 (也 可 见 aggregate) : 


type memory is array (15 downto 0) of std_logic_vector (7 downto 0); 

signal s mem : memory := (others => (others => '0')); - 二 维 阵列 的 所 有 元 素 都 为 0 
~ beginning of a case statement 

when others => null; 
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Out 





接口 模式 ， 人 允许 接口 只 写 。 
Package 


描述 函数 、 过 程 、 常 量 和 类 型 ， 在 分 开 的 文件 中 ， 可 以 被 不 同 工 程 共享 。 实 例 
见 2.6 节 。 包 的 普通 模板 如 下 : 


package <NAME OF THE PACKAGE> is 


type - 可 用 类 型 声明 
constant -可 用 常量 声明 
function ~ 可 用 函数 声明 
procedure - 可 用 过 程 声明 
end < 包 名 >; 
package body < 包 名 >is 
-- EN BOLE 
end «£44»; 


-- some predefined packages are described in section 2.6 
Port 


使 实体 与 其 他 较 高 级 模块 通信 的 信号 。Port map 结构 定义 信号 映射 ， 从 较 高 级 
模块 到 较 低级 模块 。 


Procedure 


区 别 于 函数 ， 因 为 它 可 以 产生 多 个 信号 。 过 程 的 普通 模板 如 下 : 
procedure < 过 程 名 > (< INPUT, OUTPUT All INOUT 参数 列表 >) is 
-声明 部 分 
begin 
-- sequential statements ( 过程 体 ) 
end < 过 程 名 >; 
过 程 中 out 和 inout 的 参数 将 它们 的 值 返回 到 调用 模块 。 参 数 可 以 没有 约束 ， 


即 没 有 上 下 界 。 过 程 体 类 似 组 合 进程 体 。2. 4 节 有 过 程 和 相关 的 简单 实例 。 
Process 


描述 设计 层次 级 。 不 同 进 程 可 以 并 行 执行 (与 其 他 进程 并 行 和 并 行 信号 赋 
值 )。 进 程 的 普通 模板 如 下 : 
< 可 用 标号 > process (< 敏感 列表 >) 
- pal Hi 4. 
begin i 
-时 序 主体 (进程 体 ) 
end process < 可 用 标号 >; 


进程 内 语句 顺序 执行 。 只 在 进程 挂 起 时 更 新 信号 。 进 程 内 信号 赋值 (< =) 
不 立即 生效 ， 区 别 于 变量 赋值 (: = ) 立即 完成 。 敏 感 列 表 是 信号 集 ， 在 process 
后 面 的 括号 内 。 这 些 信 号 的 任何 变化 〈 任 何事 件 发 生 ) 都 会 造成 进程 激活 。 组 合 
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进程 的 敏感 列表 〈 组 合 电路 ) 必须 包含 所 有 输入 信号 ， 进 程 必须 更 新 所 有 输出 信 
号 。 时 序 进程 包括 边沿 触 发 时 钟 定 时 。 一 个 进程 可 改变 另 一 个 进程 的 敏感 列表 中 的 
信和 号。 没有 敏感 列表 的 进程 应 该 包括 wait 语句 。2. 3 节 主 要 是 进程 和 相关 简单 
实例 。 


Pure 











国 数 的 可 选项 ， 不 允许 使 用 函数 外 部 声明 的 信号 和 变量 。 所 有 函数 默认 为 pure 
( 见 2.4 节 的 impure 函数 ) 。 


限定 表达 式 
(type’(expression) ) 允许 表达 式 类 型 明确 ， 例 如 : 


architecture ..... 

signal user signal : integer range 0 to 15 := 11; 
begin 

user out <= unsigned'("0000") + user. signal; 


Range 
允许 明确 定义 值 的 区 间 (UL subtype) 。 以 下 实例 声明 整数 范围 


signal user signal : integer range -5 to 10; -- the range of integers is from -5 to 10 


Record 


表达 数据 集 (具有 相同 或 不 同类 型 ) Record 可 声明 为 类 型 ( 见 type 的 其 他 信 
息 ) 。 记 录 类 型 信号 可 使 用 aggregate 赋值 (I aggregate 的 其 他 信息 ) 。 以 下 实例 证 
明 record 类 型 可 为 串 包 声明 ， 可 用 于 RS232 接口 通信 : 


type serial_package is record -- type definition 
start bit. : std logic; 
dala bits :std logic vector (7 downto 0); 
parity bit :std logic; 
Stop bit :std logic; 
number : integer range 0 to 127; 


end record; 
signal my. sp : serial package; -~ declaration of my_sp signal of type serial package 
以 下 实例 表明 如 何 进入 并 赋值 单个 领域 : 
my. sp.number <= 10; my. sp.start bit <= '1'; 
my. sp.data bits <= (others => '1'); 
关系 运算 符 


= ($F), /= (RSF), < UKF); <= (小 于 等 于 ) > (KF), > 
= (大 于 等 于 )。 


求 余 
二 进 制 操作 符 ， 可 用 于 任何 整数 类 型 。 结 果 符号 同 第 一 个 操作 数 ， 定 义 为 a 





rem 
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rem b = a-(a/b) xb, Spi" 2.2 节 。 
Report 

生成 报告 信息 的 语句 (细节 见 2.5 39) o 
Return 


结束 函数 并 将 控制 传送 到 调用 函数 。 任 何 函 数 必须 有 return 语句 。 
Select 


可 在 结构 体 用 于 信和 号 赋值 。 例 如 ， 以 下 结构 描述 全 加 器 : 
architecture STRUCT of FULLADD is ~- another example is given in section 3.1.2 
signal three bits : std_logic_vector(2 downto 0); 
begin three bits <= A & B & CIN; 
with three bits select SUM <= '1' when "100"|010"/001"]1 11", -- SUM=1 for the listed vectors 
'0' when others; -- SUM=0 for non-listed vectors 
with three bits select COUT <= '1' when "011"/101"|110"|111", -- COUT=1 for the listed vectors 
'0' when others; -- COUT=0 for non-listed vectors 
end STRUCT; ~ another example is given in subtype 


Severity 
定义 值 标 记 、 警 告 、 错 误 和 失败 的 类 型 (细节 见 2.5 节 )。 
共享 变量 


Shared 关键 字 允 许 不 同 进程 获得 相同 的 变量 。 共 享 变量 只 能 在 实体 、 结 构 体 和 
生成 (常规 变量 不 能 声明 的 地 方 ) 声明 ， 句 柄 如 下 : 


shared variable «VARIABLE NAME? : «NAME OF TYPE? ‘= «EXPRESSION»; 
For example (N is the number of RAM words, M is the size of the words): 


type type of the RAM block is array (0 to N-1) of std. logic vector (M-1 downto 0); 
shared variable RAM block : type of the RAM block; 


Xilinx 建议 共享 变量 用 于 建 模具 有 两 个 写 接口 的 RAM. (实例 见 本 章 参 考 文献 
[1]). 


移 位 运算 符 rol, ror, sla, sll, sra, srl 


文献 [1] 指出 这 些 操作 定义 用 于 一 维 阵列 、 位 或 布尔 参数 。 有 两 个 参数 ， 即 
A 和 B， 其 中 A 是 阵列 ，B 是 阵列 位 置 的 数量 ， 阵 列 位 置 是 移 位 或 循环 。 假 定 操 作 
BAAN fiz (N-1 downto 0), REX B 是 整数 ， 给 出 以 下 逻辑 等 式 : 
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* rol (rotate left): A(N-B-1 downto 0) & A(N-1 downto N-B); 
* ror (rotate right): A(B-1 downto 0) & A(N-1 downto B); 
* sla (shift left arithmetic): A(N-B-1 downto 0) & (B-1 downto 0 => A(0)); 
* sll (shift left logic): A(N-B-1 downto 0) & (B-1 downto 0 => ‘0’); 
* sra (shift right arithmetic): (B-1 downto 0 => A(N-1)) & A(N-1 downto B); 
* srl (shift right logic): (B-1 downto 0 => '0) & A(N-1 downto B); 
entity L shift is ~ the library numeric std has to be included (use ieee.numeric std.all;) 
port(clk : in std logic; ~ system clock 100 MHz 
sw :inunsigned(15 downto 0); —-- switches of the Nexys-4 or any other board 
led : out unsigned(13 downto 0) ); -- LEDs of the Nexys-4 or any other board 
end L_shift; 
architecture Behavioral of L shift is 
signal data in : unsigned(13 downto 0); -- an input vector from the switches 
signal data imp : unsigned(13 downto 0); -- a temporary vector that is rotated 
signal sel :unsigned(1 downto 0);  -- selects the number of positions to rotate 
signal divided_clk :std logic; ~ low frequency (IHz) to make the rotations visible 
begin 
data in <= sw(13 downto 0); -- taking an input vector from the switches 
sel «z sw(15 downto 14); -- taking the sel value from the switches 
process (divided clk) -- sequential process that demonstrates the use of the rol operator 
begin 
if rising edge(divided clk) then 
case sel is -- selection of the number of positions to rotate 
when "00" => data tmp <= data in ; ~ taking an initial vector from the switches 


when "01" => data tmp <= data tmp rol 1;-- rotate one position (B=1) 
when "10" => data tmp <= data tmp rol 2;-- rotate two positions (B=2) 
when "11" => data tmp <= data tmp rol 3;-- rotate three positions (B3) 
when others => data tmp <= data in ; 


end case;  - the operators ror, sil, srl can be used above instead of the operation rol 
end if, 
end process; 
led <= data tmp; ~- showing rotated data on leds 
div: entity work.clock divider -- dock divider to reduce dock frequency from 100 MHz to — 1Hz 


port map (clk, 'O', divided ck); -- the reset signal is always deasserted ('0') 


end Behavioral; 


推荐 使 用 逻辑 与 运算 符 而 不 是 移 位 操作 。 
Signal 


信号 建 模 硬件 电路 中 的 物理 线 。 信 和 号 赋值 使 用 符号 对 < = ， 且 赋值 存在 延 时 
(默认 一 个 delta REMY) 。 考 虑 延 时 赋值 在 时 钟 类 完成 或 进程 的 时 序 语句 部 分 (UL 
2.3.2 节 的 TestProe 实体 ) 。 信 和 号 不 同 于 变量 ， 变 量 赋值 不 存在 延 时 。 信 和 号 在 结构 
体 声明 (不 能 在 进程 、 过 程 和 函数 中 声明 ) ， 声 明 格式 如 下 : 


Signal <NAME OF SIGNAL> : <TYPE OF SIGNAL>; 
signal «NAME OF SIGNAL? : <TYPE OF SIGNAL? := <INITIAL VALUE>; 


信号 可 在 结构 体 、 进 程 、 过 程 或 函数 中 使 用 ， 可 以 是 函数 或 过 程 的 正式 参数 。 
进程 的 敏感 列表 没有 变量 只 有 信和 号 。 

并 行 信 号 赋值 (<=), 条件 信 号 赋值 (when…esle) 和 选择 性 赋值 (with… 
. select…. when) 都 可 用 于 结构 体 。 在 进程 (过 程 ) 中 ， 通常 只 有 时 序 信号 赋值 
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(< = )。 以 下 规则 很 重要 : 

1) 时 序 信号 赋值 在 进程 中 完成 ， 且 只 在 进程 挂 起 时 完成 ; 

2) 如 果 进 程 中 有 多 条 语句 对 一 个 信号 进行 赋值 ， 则 只 有 最 后 一 条 赋值 语句 
有 效 。 


Subtype 


对 于 选 定 的 基本 类 型 ， 子 类 型 引入 约束 或 值 的 子 集 。 声 明 格式 如 下 : 
subtype 了 is < 基本 类 型 > 
range < 值 范围 >; 





The use of subtypes is considered on an example below. 


entity types_and_subtypes is 
port ( switches :in std logic vector(1 downto 0); ~ two switches 
leds : out std logic vector (3 downto 0)); ~- four LEDs 
end types_and_subtypes; 


architecture Behavioral of types_and_subtypes is 
subtype four_bits_std_logic_vector is std_logic_vector (3 downto 0); 


type my_pack is array (0 to 3) of four_bits_std_logic_vector; -- a subtype of std. logic vector 
constant set of lines : my pack := (x"F", b"00 11", o"6"&'0', "0101"); -- defining a constant value 
begin 
with switches select leds <= set_of_lines(0) when "00", — -- displayed value is "ILI" = x"F" 
set_of_lines(1) when "01", -- displayed value is "0011" = b"00 |I" 
set_of_lines(2) when "10", -- displayed value is "1100" = 0"6"&'0' 
set_of_lines(3) when "11", -- displayed value is "0101" = "0101" 


(others => '0') when others; 
end Behavioral; 


To 


声明 范围 方向 ,例如 A (0 to 7). 
Type 
以 如 下 格式 声明 : 


type «NAME OF TYPE? is «SPECIFICATION OF TYPE»; -- see also enumerated type 
表 A.4 总 结 了 在 综合 VHDL (解决 类 型 允许 信号 被 多 个 资源 驱动 ) 时 最 常用 
的 类 型 信息 。 注 意 ， 使 用 类 型 real 存在 诸多 约束 。 
表 A.4 经 常 使 用 的 定义 的 VHDL 数据 类 型 





















































类 型 声明 位 置 可 能 取 值 
位 VHDL 标准 mo”. q” 
位 向 量 VHDL 标准 位 数组 
布尔 量 VHDL 标准 B, 真 
字符 VHDL 标准 | ISE 中 的 7 位 ASCI 代码 
整数 量 VHDL 标准 最 少 32 位 ( -231 ~23! 21) 
自然 数 VHDL 标准 整数 的 子 类 型 (0 ~23 -1) 
IER VHDL 标准 整数 的 子 类 型 (1 ~2 -1) 
实数 综合 时 存在 许多 约束 浮 点 数 
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(5) 
类 型 声明 位 置 可 能 取 值 
有 符号 数 fi; ieee. std — logic arith, ieee. number std std. logic 数组 
std. logic fil: ieee. std. logic 1164 决定 的 std. ulogic 
std logic vector f: ieee.std logic 1164 std. logic 数组 
s s . MU. ea ug b o hu 
std. ulogic fi: ieee. std logic 1164 d. uy” ajh am =- 
std_ulogic_vector fil: ieee. std logic 1164 std. ulogic 数组 
string VHDL 标准 字符 数组 
time VHDL 标准 时 间 单 位 
unsigned 包 : ieee. std_logic_1164 std_logic 数组 


每 个 类 型 允许 值 集 和 关联 操作 集 。 定 义 的 类 型 组 如 标量 (位 、 布 尔 、 字 符 、 
枚 举 、 整 数 、 物 理 、 实 数 、 严 重 ) 和 组 合 〈 阵 列 、 位 向 量 、 记 录 、 串 ) 。 

无 符号 向 量 “1111” 对 应 整数 15， 符 号 向 量 “1111” 对 应 整数 -1。 后 者 是 二 
进 制 补 码 记 法 ， 即 最 高 有 效 位 表示 符号 (1 是 减 号 “-”, 0 是 加 号 “ +"), 具有 
负 权 值 -2 ， 其 余 位 具有 正 权 值 〈 分 别 为 22，21，22 ) 等 于 2*， 其 中 x 是 各 自 位 
的 索引 〈 最 低 有 效 位 是 索引 0) 。 


类 型 转换 


(类 型 转换 ) 经 常会 用 到 。 它 们 可 自动 提供 通过 类 型 casts 或 转换 函数 (也 可 
见 2.2 节 )。 类 型 cast 用 于 转换 相同 大 小 的 signed 或 unsigned 到 std _ logic _ vector, 


反之 亦 然 。 
signed_vector <= signed(std_logic_vector_signal); 
unsigned_vector <= unsigned(std_logic_vector_signal); 


std_logic_vector_signal <= std_logic_vector(signed_vector); 
std_logic_vector_signal <= std_logic_vector(unsigned_vector); 


以 下 赋值 需要 转换 函数 : 

integer_signal <= conv integer (unsigned vector); 

integer signal <= conv integer (signed vector); 

integer. signal <= conv integer (std logic vector signal); 

unsigned vector <= conv unsigned (integer. signal, size of unsigned vector); 
signed vector «- conv. signed (integer signal, size of signed vector); 


std logic vector signal «- conv std logic vector (integer signal, size); 


使 用 转换 函数 需要 包含 相关 的 库 。 例 如 conv _ integer 函数 定义 在 库 std _ logic _ un- 
signed (或 std logic signed), conv std logie _ vector 函数 定义 在 库 std _ logic _ arith, 


Until 
用 于 wait 语句 的 条 件 中 ( 见 on) 。 给 出 实例 如 下 : 
process 
begin 


wait until rising edge(divided clk) and BTNC = '1'; 
count <= count + 1; 
end process; 


35] 








© 基于 FPGA 的 系统 优化 与 综合 9 


Use 
使 函数 、 过 程 、 约 束 和 包 的 类 型 变 得 在 相关 的 实体 /结构 体 中 可 用 (可 见 ) 。 
Variable 


在 VHDL 中 非常 类 似 通用 可 编程 语言 的 变量 。 它 们 可 在 进程 、 过 程 和 函数 中 
声明 和 使 用 。 允 许 信号 向 变量 赋值 (< 变量 > : = “信号 >;)， 反 之 亦 然 (< 信 
号 > : = «HB, 但 是 必须 满足 类 型 匹配 ， 必 须 选 择 合适 的 操作 符 ( : = 或 
< = )。 变 量 赋值 立即 生效 (区别 于 信号 赋值 ) 。 


Wait 


挂 起 进程 。 本 章 参 考 文献 [1] 建议 描述 进程 有 敏感 列表 ， 并 指出 以 下 限制 : 
D 只 允许 一 个 wait 语句 ， 且 必须 在 进程 的 首部 ; © wait 语句 的 条 件 必须 描述 时 钟 
信号 。 见 on 和 until, 


When 
可 用 于 case 语句 和 信号 赋值 (JL case 和 select) o 
While 


语句 允许 重复 操作 通过 复制 逻辑 执行 。 格 式 如 下 : 


process (vector) -- this process finds the position (from | to 8) of the first | in the vector 


variable first_right : integer range 0 to N; 
variable i : integer range 0 to N; 
begin 
first_right := 0; ~- variables have to be used here 
i:=0; 
while i < N loop -- vector is declared as std logic vector (7 downto 0); 
if vector(i) ='1' then first right ;= i+1; exit; 
else i= i+; 
end if; -- positions of the vector bits are: 8 for bit 7, 7 for bit 6, 6 for bit 5, etc. 
end loop; -- an optional label can be used for the loop 
led <=conv_std_logic_vector(first_right, 8); -= if vector = "00010100" then the result is 0011 
end process;  - the result 0011 indicates position 3 (for bit 2) which is the first "|" from the right 
With 


用 于 被 选择 的 信号 赋值 ( 见 select) 。 


参考 文献 


l. Xilinx Inc. (2013) XST user guide for Virtex-6, Spartan-6, and 7 series devices. 
http://www. xilinx.com/support/documentation/sw_manuals/xilinx |4_7/xst_v6s6.pdf. 
Accessed 17 Nov 2013 

2. Ashenden PJ (2008) The designer's guide to VHDL, 3rd edn. Morgan Kaufmann, Boston 
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附录 B 代码 实例 





摘要 一 一 附录 B 包含 常用 模块 的 代码 实例 ， 可 轻松 通过 名 字 定 位 。 实 体 与 在 
第 3 章 和 第 4 章 描 述 过 的 相关 器 件 使 用 的 实体 具有 相同 的 名 字 。 所 有 工程 的 VHDL 
代码 、 用 户 约 束 文件 和 比特 流 都 在 网 上 可 找到 ， 网 址 http: //sweet. ua. pt/skl/ 
Springer2014. html, 


二 进 制 到 BDC 码 转换 ( BinToBCDS8) 


以 下 VHDL 代码 是 完整 的 模块 ， 实 现 将 8 位 二 进 制 数 (binary) 转换 为 二 进 制 
编码 的 十 进 制 数 (BCD) (BCD2, BCDI, BCD0) : 


library IEEE; -- a conversion can also be done on request and this will be 
use IEEE.STD LOGIC. 1164 all; ~ shown after the next example BinToBCD 16 

use EEE.STD LOGIC ARITH.all; 

use IEEE.STD LOGIC UNSIGNED all; 


entity BinToBCD8 is ~ Binary to BCD converter for 8-bit numbers of std. logic vector type 
generic(size of data to convert: X integer := 8 ); 
port ( clk :in std logic; 
reset : in std logic; 
ready : out std logic; ~ ready is 0 when the number is being converted 
binary — :in std logic vector (size of data to convert-1 downto 0); 


BCD2 :out std logic vector (3 downto 0); -- BCD code for the most significant digit 

BCD1 :out std logic vector (3 downto 0); -- BCD code for the digit in the middle 

BCDO :out std logic vector (3 downto 0)); -- BCD code for the least significant digit 
end BinToBCD8; 


architecture Behavioral of BinToBCD6 is 
type state is (idle, op, done); 


signal c s,n s : slate; 

signal BCD2 c, BCD1 c, BCDO c, BCD2 n, BCD1 n, BCDO n : unsigned(3 downto 0); 
signal BCD1 tmp, BCDO tmp : unsigned(3 downto 0); 
signal BCD2 tmp : unsigned(2 downto 0); 


signal int rg c, int rg n :std logic vector (size of data to convert-1 downto 0); 
signal index c, index n  : unsigned(3 downto 0); 
signal get outputs : Std logic; 

begin 


process(clk, reset) 
begin 
if rising edge(clk) then 
if reset = '1' then 
C S «- idle; -- idle state at the beginning 
BCD2 c <= (others => '0'); BCD1 c <= (others => '0'; BCDO c <= (others => '0'); 
BCDO <= (others=>'0'); BCD1 <= (others=>'0'); BCD2 <= (others=>'0'); 
elsec s«-n s; -- next values are copied to current values 
BCD2 c <= BCD2 n; BCD1 c <= BCD1 n; BCD0_c <= BCDO n; 
index c <= index n; int rg c <= int rg n; 
if (get outputs = '1') then 
BCDO <= std logic vector(BCDO n); 
BCD1 <= std logic. vector(BCD1 n); 
BCD2 <= std logic vector(BCD2 n); 
end if; 
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end if; 
end if; 


end process; 


process (c. s, BCD2 c, BCD1 c, BCDO c, BCD2 tmp, 
BCD1 tmp, BCDO tmp, binary, int rg c, index c, index n) 
begin 


get outputs <= '05 n s <= c s; 

BCD2 n <= BCD2 c; BCD1. n <= BCD1 c; 
BCDO. n <= BCDO c; index n <= index c; 
int rg. n <= int rg c; ready <='0'; 


casec SiS - at the beginning ready is 0 
when idle => n s <= op; ready <='0'; int rg n <= binary; index n <= "1000"; 
when op => ready <= '0'; 
int rg. n <= int rg c(size of data to convert-2 downto 0) & '0'; 
BCDO n <= BCDO tmp(2 downto 0) & int rg c(size of data to convert-1); 
BCD1 n <= BCD1 tmp(2 downto 0) & BCDO tmp(3); 
BCD2 n <= BCD2 tmp(2 downto 0) & BCD1_tmp(3); 
index n <= index c - 1; 
if (index n = 0) then n s <= done; get outputs <= '1*; 
end if; 
when done 7? n s «- idle; 
BCD2 n <= (others => '0"; 
BCD1 n <= (others => '0'); 
BCDO n <= (others => '0'); 
ready <='1'; -- now ready is l, i.e. a new conversion can be done 
end case; 
end process; 


BCDO tmp <= BCDO c + 3 when BCDO c > 4 else BCDO c; 
BCD1 tmp <= BCD1 c + 3 when BCD1_c > 4 else BCD1 c; 
BCD2_tmp <= BCD2 c(2 downto 0) + 3 when BCD2 c > 4 else BCD2 c(2 downto 0); 


end Behavioral; 


图 B. la 所 示 为 模块 BinToBCDS 的 界面 。 信 和 号 ready 在 一 个 时 钟 周 期 内 有 效 
ready 要 转换 的 新 数据 项 
| 


ready 

















A 
r9 [8 
= E 
a Ja 
BinToBCD8 rg -9 
a 
a o 
[8 BinToBCD16 LB 
iF: 
e ro 
9 a ja 
m cd st 
J c S+254 La 
d > & 
a 3 
e 
eo 
b) 
图 BI 


a) BinToBCD8 模块 接口 b) 换算 举例 c) BinToBCD16 模块 接口 
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它 表 示 转 换 完成 结果 可 以 使 用 。 当 ready 20 时 可 以 准备 新 的 转换 数据 。 代 码 可 以 
稍微 改变 ,一旦 ready 激活 ，FSM 继续 为 闲置 状态 直到 接收 到 新 的 转换 请 求 。 其 他 
细节 见 后 面 的 实例 。 l 


二 进 制 到 BCD 转换 (BinToBCD16) 


以 下 VHDL 代码 是 模块 的 完整 描述 ， 将 16 位 三 进 制 数 (binary) 转换 为 二 进 
制 编码 的 十 进 制 数 (BCD) (BCD4, BCD3, BCD2, BCD1, BCDO): 

library IEEE; 

use IEEE.STD_LOGIC_1164.all; 


use IEEE.STD_LOGIC_ARITH.all; 
use IEEE.STD_LOGIC_UNSIGNED.all; 





entity BinToBCD16 is -- binary to BCD converter for 16-bit numbers of std logic vector type 
generic(size of data to convert: ^ integer = 16); 
port ( clk :in std logic; 

reset : in std logic; 

ready : out std logic; -- ready is 0 when the number is being converted 

binary — :in std logic vector (size_of_data_to_convert-1 downto 0); 

request  : in std logic; -- a request is assumed to be sent when ready is active (|) 


BCD4 : out std logic vector (3 downto 0); -- BCD code for the most significant digit 

BCD3  :out std logic vector (3 downto 0); 

BCD2 : out std logic vector (3 downto 0); 

BCD1 : out std logic vector (3 downto 0); 

BCDO X :out std logic vector (3 downto 0)); -- BCD code for the least significant digit 
end BinToBCD16; 


architecture Behavioral of BinToBCD16 is 
type state is (idle, op, done); 
signal c s,n s : state; 
signal BCD4 c, BCD3 c, BCD2 c, BCD1. c, BCD0_c, BCD4 n, BCD3 n, BCD2 n, BCD1 n, 
BCDO n : unsigned(3 downto 0); 
signal BCD3 tmp, BCD2 tmp, BCD1 tmp, BCD0 tmp — :unsigned(3 downto 0); 
signal BCD4 tmp : unsigned(2 downto 0); 
signal int rg c, int rg n :std logic vector (size of data to convert-1 downto 0); 
signal index c, index n  : unsigned(4 downto 0); 
signal get outputs :std logic; 
begin 
process(clk, reset) 
begin 
if rising edge(clk) then 
if reset = '1' then c. s <= idle; 
BCD4_c <= (others => '0'); BCD3 c <= (others => '0'); BCD2 c <= (others => '0'); 
BCD1_c <= (others => '0'); BCDO c <= (others => '0'); BCDO <= (others=>'0'); 
BCD1 <= (others=>'0'); BCD2 <= (others=>'0'); BCD3 <= (others=>'0'); 
BCD4 <= (others=>'0’); 
elsec s«-n s 
BCDA c <= BCD4 n; BCD3 c <= BCD3 n; BCD2 c <= BCD2 n; 
BCD1 c <= BCD1 n; BCDO c <= BCDO n; 
index c <= index n; int rg c <= int rg n; 
if (get outputs = '1') then 
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BCD0 <= std logic vector(BCDO n); BCD1 <= std_logic_vector(BCD1_n); 
BCD2 <= std_logic_vector(BCD2_n); BCD3 <= std logic vector(BCD3 n); 
BCD4 <= std logic vector(BCD4 n); 
end if; 
end if; 
end if; 
end process; 


process (c s, BCD4 c, BCD3 c, BCD2 c, BCD1 c, BCDO c, BCD4 tmp, BCD3 tmp, 
BCD2 tmp, BCD1 tmp, BCDO tmp, binary, int rg c, index c, index n, request) 
begin 


get outputs <= '0'; 

n s «zc s; BCD4_n <= BCDA c; BCD3 n <= BCD3 c; BCD2 n <= BCD2 c; 
BCD1_n <= BCD1 c; BCDO n <= BCDO c, index n <= index c; int rg n <= int rg c; 
ready <='0'; 


casec sis 
when idle => 
n. S <= op; ready <='1'; int rg n <= binary; index n <= "10000"; 
if request /= '1' then n. s <= idle; -- transition to the op state is 
end if; -- done as soon as the request is active (ie. equal to 1) 
when op => ready <= '0'; 
int rg n <= int rg c(size of data to convert-2 downto 0) & '0’; 
BCDO_n <= BCDO tmp(2 downto 0) & int rg c(size of data to convert-1); 
BCD1 n«- BCD1 tmp(2 downto 0) & BCDO tmp(3); 
BCD2_n <= BCD2 tmp(2 downto 0) & BCD1 tmp(3); 


BCD3 n <= BCD3 tmp(2 downto 0) & BCD2 tmp(3); 
BCD4 n <= BCD4_tmp(2 downto 0) & BCD3 tmp(3); 
index n <= index c- 1; 
if (index n = 0) then n s <= done; get outputs <= '1*; 
end if; 
when done => n s <= idle; 
BCDA n <= (others => '0'); BCD3 n <= (others => '0'); BCD2 n <= (others => '0'); 
BCD1 n <= (others => '0); BCDO n <= (others => '0'); 
ready <= '1'; -- now ready is |, i.e. a new conversion can be done 
end case; 
end process; 


BCDO tmp <= BCDO c + 3 when BCDO c > 4 else BCDO c; 
BCD1 tmp <= BCD1 c + 3 when BCD1 c» 4 else BCD1 c; 
BCD2 tmp <= BCD2 c + 3 when BCD2_c > 4 else BCD2 c; 


BCD3 tmp <= BCD3 c + 3 when BCD3_c > 4 else BCD3 c; 
BCD4 tmp <=BCD4_c(2 downto 0) + 3 when BCD4 c > 4 else BCD4 c(2 downto 0); 


end Behavioral; 


模块 BinToBCD16 操作 与 模块 BinToBCD8 稍 有 不 同 。 现 在 ready 信号 在 闲置 状 
态 激活 (ready < = '1'), ， 模 块 等 待 新 转换 的 request。 一 旦 request 信号 激活 ， 新 
数据 接收 并 完成 新 的 转换 (ULL B. 1c) 。 在 实体 TopForlnteractingWitlPCores 中 使 用 


BinToBCD16 ( 见 4.2 节 )， 稍 做 改动 如 下 : 


binTO_BCD3: entity work.BinToBCD16 — the request below is assumed to be always active (i.e. 1) 
port map (clk, reset, open, To_BCD, '1', BCD4, BCD3, BCD2, BCD1, BCD0); 


以 下 改变 可 在 实体 TopForlnteractingWitlPCores 中 完成 ， 包 含 request 信号 : 
1) 新 信号 必须 声明 ;signal request, ready; std — logic; 
2) request 必须 生成 ， 例 如 request < = ready and BTNR; 
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3) port map 的 映射 如 下 : 


port map (clk, reset, ready, To BCD, request, BCD4, BCD3, BCD2, BCD1, BCD0); 


现在 转换 可 从 板 集 按 钮 BTNR 传送 的 request 完成 。 
时 钟 划 分 (clock divider) 


时 钟 划分 允许 系统 时 钟 被 2""- 划分。 具有 信和 号 reset signal 的 模块 如 下 
(从 内 容 来 看 ，reset 可 以 移 除 ) : 


library IEEE; 
use IEEE.STD LOGIC 1164 all; 
use IEEE.STD LOGIC UNSIGNED.all; 


entity clock divider is 
generic (how fast : integer := 25 ); 
port( clk, reset — : in std logic; -- similar circuit without the reset signal can also be used 


divided clk :outstd logic); 
end clock divider; 





architecture Behavioral of clock divider is 
signal internal clock : std logic. vector (how fast downto 0); 


begin 
process(clk, reset) -- remove reset if there is no reset in the circuit 
begin 
if rising edge(clk) then 
if reset = '1' then -- remove reset if there is no reset in the circuit 
internal clock <= (others=>'0'); ^ -- remove this line if there is no reset in the circuit 
else internal clock <= internal clock*1; 
end if; -- remove else and end if keywords if there is no reset in the circuit 
end if; 


end process; 
divided_clk <= internal_clock(internal_clock'left) when falling_edge(clk); 


end Behavioral: 
基于 DSP 的 汉 明 权重 计数 器 /比较 器 ，N =32 (Test HW32) 
以 下 VHDL 代码 为 汉 明 权重 计数 器 /比较 器 的 完整 描述 〈 具 有 固定 国 值 ) ，N =32: 


library IEEE; ~- The top-level module to test the 32-bit Hamming weight counter/comparator 


use IEEE.STD LOGIC 1164 all; -- this circuit occupies 0 logical slices and 2 DSP48 slices 
use IEEE.STD_LOGIC_UNSIGNED.all; ~ the maximum combinational path delay is 3.9 ns 


entity Test_HW32 is ~ the project was tested in the Nexys-4 board 
port ( Sw :in std logic vector(15 downto 0); — -- Nexys-4 onboard switches 
led :out sid logic vector (5 downto 0); — -- Nexys-4 onboard LEDs 
infObit — :in std logic vector(15 downto 0); ~ signals from Nexys-4 PMod connectors 
led comp : out std logic); ~ the result of comparison 
end Test HW32; 


architecture Behavioral of Test HW32 is 


signal threshold :std logic vector(5 downto 0); 
signal HW1, HW2 :std logic vector(4 downto 0); 
signal remaining inputs1 :std logic vector(11 downto 0); 
signal remaining inputs2 :std logic vector(11 downto 0); 
signal remaining outputs1 :std logic vector(5 downto 0); 
signal remaining outputs2 :std logic vector(5 downto 0); 
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begin 

threshold <= not"011010" + 1; = this value of threshold was taken just for test 
remaining_inputs1 <='0' & HW1 & '0' & HW2; 

remaining. inputs2 <= remaining outputs1 & threshold; 

led <= remaining. outputs1; 


HWCC16_1: entity work.HW counter comparator 16bit ^ -- see the code below 
port map(Sw, HW1, remaining inputs1, remaining outputs1, open); 


HWCC16 2; entity work.HW counter comparator 16bit — -- see the code below 
port map(in16bit, HW2, remaining inputs2, open, led comp); 


end Behavioral; 


library IEEE; —  -- this is the component for the top-level module above 
use IEEE.STD LOGIC 1164.all; -- this is 16-bit Hamming weight counter/comparator 
entity HW_counter_comparator_16bit is -- this component is used as HWCCI6 | and HWCC16_2 above 
port ( Sw :in std logic vector (15 downto 0); 
Hamming weight ^ :out std logic vector (4 downto 0); 
remaining inputs — :in std logic vector(11 downto 0); 
remaining outputs — : out std logic vector(5 downto 0); 
comp : out std logic); 


end HW counter. comparator. 16bit; 


architecture Behavioral of HW counter comparator 16bit is 
signal A, B, Y :std logic vector(47 downto 0); -- A and B are operands for DSPA8EI, Y is the result 
begin 


process(Sw, Y, remaining inputs) 
begin 
A <= (others => '0'); B <= (others => '0'); -- at the beginning the operands are assigned zero values 


for iin 7 downto 0 loop -- see also Fig. 4.10 and Fig. 4.11 
A(2*i) <= Sw(i); 
B(2*i) <= Sw(i*8); 

end loop; 


foriin 3 downto 0 loop 
A(16+3*i+1 downto 16*3*i) <= Y(2*i*1 downto 2*i); 
B(16+3*i+1 downto 16+3*i) <= Y(2*i+1+8 downto 2*i*8); 


end loop; 


fori in 1 downto 0 loop 
A(28+4*i+2 downto 28+4*i) <= Y(16*3*i*2 downto 16*3"1); 
B(28+4*i+2 downto 28*4*i) <= Y(16+3*i+2+6 downto 16+3*i+6); 
end loop; 


A(39 downto 36) <= Y(31 downto 28); 

B(39 downto 36) <= Y(35 downto 32); 

A(46 downto 41) <= remaining_inputs(5 downto 0); 

B(46 downto 41) « remaining inputs(11 downto 6); 
end process; 


Hamming_weight <= Y(40 downto 36); -- the resulting Hamming weight 
comp <= Y(47); -- the result of comparison 
remaining_outputs <= Y(46 downto 41); -- the threshold is supplied here 


DSP : entity work. TesDSP48E1 HW16 
port map (A, B, "0000", Y); 


end Behavioral; 


图 B. 2a 所 示 为 电路 的 可 能 界面 。 
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然 ， 靖 值 可 来 自 外 部 ， 图 3. 30 pen eee 仅 需 一 片 额外 的 
me E B.2b), Xilinx 原 语 CFGLUTS LU 是 运行 时 间 、 动 态 配置 的 5 输入 


nik hel cael i TES (配置 LUT)。 因 此 ， IREE 


可 能 由 外 部 提供 阔 什 






Test HW32:0 片 逻辑 上 TDSP 


entity Test_HW32 is — -- 在 Nexy-4 板 测试 工程 

port ( Sw :in std logic vector (15 downto 0); -- Nexys-4 板 上 开关 

"fed zout std logic vector (5 downto 0); — Nexys-4 板 上 Led 

>in16bit :instd logic vector(15 downto 0); — --Nexys-4 PMod 信号 
led L comp: out std d logic); ~ 比较 结果 

end Test. HW32;^ 2 Dp a ee Am ae 
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LUT (6,1) 具有 
6 位 汉 明 权重 已 | — 预先 配置 的 界限 / c 
iit 








b) 


PRÉ LP GEHE D BR TC 





Test HW64:1 Hr 3E fit) #114 He DSP 
entity Test HW64 is -- 工程 从 FPGA 引 脚 获 取 64 位 向 量 
port (Sw :in std logic vector (15 downto 0); -- 开关 提供 的 部 分 向 量 
led : out std logic vector (6 downto 0); -- Nexys-4 板 上 Led 
in48bit :instd logic vector(47 downto 0); -- 余数 
led_comp: out std_logic); -- 比 较 结 果 


64 位 输入 
进 制 向 量 


end Test_HW64; 


c) 


图 B.2 a) 基于 DSP 的 32 位 汉 明 权重 计数 器 /比较 器 
b) 比较 实用 多 界限 c) 基于 DSP 的 64 (EDU BOR TIPOS Eoo 


基于 DSP 的 汉 明 权重 计数 器 /比较 器 ，N =64 (Test HW64) 





以 下 VHDL 代码 为 汉 明 权重 计数 融 / 比 较 咒 的 完整 描述 〈 具 有 固定 国 值 ) N= 


library IEEE; ~- the top-level module to test the 64-bit Hamming weight counter/comparator 
use IEEE.STD LOGIC. ARITH.all; -- the project was tested in the Nexys-4 board 
use IEEE.STD LOGIC  UNSIGNED.all; -- the maximum combinational path delay is 6.1 ns 
entity Test HW64 is -- this projects takes 64-bit vectors from FPGA pins 
port ( Sw :in std logic vector (15 downto 0); -- part of the vector from Nexys-4 switches 
led ‘out std logic vector (6 downto 0); -- Nexys-4 onboard LEDs 
ind8bit — :in std logic vector(47 downto 0); -- the rest of the vector from other pins 
led comp : out std logic); -- the result of comparison 
end Test HW64; 
architecture Behavioral of Test HW64 is ~- this circuit occupies | logical slice and 4 DSP48 slices 
signal threshold :std logic vector(6 downto 0): 
signal HW1, HW3 :std logic vector(4 downto 0); 
signal HW2, HW4 : std logic vector(5 downto 0); 
signal remaining inputs1 :std logic vector(11 downto 0); 
signal remaining inputs2 : Std_logic_vector(11 downto 0); 
signal remaining_inputs3 :std logic vector(11 downto 0); 
signal remaining inputs4 : std logic vector(11 downto 0); 









X^ 6 位 汉 明 权重 






f l 是 结果 和 ia 
S. ii sila 比较 结 3 









7 位 汉 明 权重 
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signal remaining outputs1 
signal remaining outputs2 
signal remaining outputs3 
signal comp 

begin 


threshold 
remaining. inputs1 
remaining inputs2 
remaining inputs3 
remaining inputs 
led comp 

led 





:std logic vector(5 downto 0); 
:std logic vector(6 downto 0); 
:std logic vector(5 downto 0); 
: std logic; 


<= not "0110010" + 1; -- this value of threshold was taken just for test 
<='0' & HW1 & HW2; 

<= remaining outputs1 & remaining, outputs3; 

<='0' & HW3 & HW4; 

<= remaining. oulputs2(5 downto 0) & threshold(5 downto 0); 
<= comp or remaining_outputs2(6); 

<= remaining outputs2; 


HWCC16_1: entity work.HW counter comparator 16bit  -- see the code above 
port map(Sw, HW1, remaining inputs, remaining outputs, open); 


HWCC16 2: entity work.HW counter comparator 16bit m 
port map( in48bit(15 downto 0), HW2, remaining inputs2, remaining. outputs2, open); 


HWCC16 3: entity work.HW counter comparator 16bit — -- see the code above 
port map(in48bit(31 downto 16), HW3, remaining inputs3, remaining. outputs3, open); 


HWCC16 4: entity work.HW counter comparator 16bit m -- the code above is slightly changed 
port map(in48bit(47 downto 32), HW4, remaining inputs4, open, comp); 


end Behavioral; 





当 Nexys -4 板 的 板 集 开关 用 于 提供 64 位 二 进 制 向 量 作 为 4 个 16 位 的 部 分 来 


自 16 个 可 用 的 开关 时 ， 
被 保存 (BTNL 对 于 in 


以 下 模块 是 有 用 的 。 当 相关 板 集 开 关 按 下 时 ， 每 个 部 分 都 
_16bitl BTNC 对 于 in 16bi2, BTNR 对 于 in _ 16bit3 和 


BIND 对 于 in _ 16bit4) 。 
library IEEE;  -- the top-level module to test the 64-bit Hamming weight counter/comparator 
use IEEE.STD LOGIC. 1164.all; -- the project was tested in the Nexys-4 board 
use IEEE.STD LOGIC UNSIGNED all; 


entity Test HW64 is 


port ( clk :in std. logic; -- for reading and saving 16-bit segments of 64-bit vector 
Sw :in std logic vector (15 downto 0); -- segments of the vector from Nexys-4 switches 
led : out std logic vector (6 downto 0); -- Nexys-4 onboard LEDs 
BTNL, BTNC, BTNR, BTND .:instd logic; —-- Nexys-4 onboard buttons 
led comp : out std logic); -- the result of comparison 


end Test HW64; 


architecture Behavioral of Test HW64 is 
-- the same signal declarations as in the previous example 
signal in 16bit1, in. 16bit2, in. 16bit3, in 16bit4 : std logic vector(15 downto 0); 


begin 


process(clk) 


begin -- reading and saving 16-bit fragments. of 64-bit vector 


if rising_edge(clk) then 
if BTNL ='1' then 
in. 16bit1 <= Sw; 
elsif BTNC ='1' then 
in 16bit2 <= Sw; 
elsif BTNR = '1' then 
in_16bit3 <= Sw; 
elsif BTND = '1' then 
in_16bit4 <= Sw; 
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-- saving the first 16 bits if BTNL is pressed 


-- saving the second 16 bits if BTNC is pressed 


-- saving the third 16 bits if BTNR is pressed 


-- saving the forth 16 bits if BIND is pressed 


I i 


else null; 
end if; 
end if, 
end process; 





-- the code here is almost the same as in the example above. The only difference is in supplying the fragments 
-- in lébitl, in lóbit2, in lóbit3, and in. lóbit4 to the 16-bit Hamming weight counters/comparators 


end Behavioral; 


奇偶 合并 排序 网 络 ，N =16 (EvenOddMergeSort16 ) 


网 络 使 用 2 H Even0ddMerge8Sort， 在 3.4. 1 节 讲 过 。 

library IEEE; -- the project was tested in the Atlys board involving interactions with a host PC 
use IEEE.STD LOGIC 1164.all; -- interactions with a host PC are not shown here 

use work.set of data items.all; — see the given below user-defined package 


entity EvenOddMerge16Sort is ~ this circuit occupies 187 logical slices (including interactions) 


generic (M : integer := 4; 一 generic size of data items 
N : integer : 16 ); ~ generic number of data items (cannot be changed for this project) 
port ( input. litems :in set of 8items; 
input. 2Zitems :in set of 8items; 
sorted : outset of 16items ); 
end EvenOddMerge16Sort; 


architecture Structural of EvenOddMerge16Sort is 
signal sorted1,sorted2 — : set of 8items; 
signal out1 in2, out2 in3 : set of 16items; 
signal out3 in4 : set of 16items; 
begin 


sort&items1: entity work.EvenOddMerge8Sort 
generic map (M => M, N => 8) 
port map(input items, sorted); 


sort8items2: entity work.EvenOddMerge8Sort 
generic map (M => M, N => 8) 
port map(input_2items, sorted2); 


stage4: for i in N/2-1 downto 0 generate 
group1stage4: entity work.Comparator 
generic map (M => M) 


~ even-odd merge sorter for 8 items 


~ the code of the sorter is given in section 3.4.1 


~ even-odd merge sorter for 8 items 


-- the code of the sorter is given in section 3.4.1 


port map(sorted1 (i), sorted2(i), outt_in2(i), out1 in2(i*8)); 


step1stage4: if (i >= 4) generate 


group2stage4: entity work.Comparator 


generic map (M => M) 


port map(out1 in2(i), out1 in2(i*4), out2_in3(i), out2_in3(i+4)); 


end generate; 


step2stage4: if (i < 4) generate 

out2 in3(i) <= out in2(i); 

out2 in3(i*12) <= out1 in2(i*12); 
end generate; 
step3stage4: if (i < 3) generate 


incide stage4: for j in 0 to N/8-1 generate 
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group3stage4: entity work.Comparator 
generic map (M => M) 
port map(out2, in3(2*i*44j), out2_in3(2+i*4+j+2), out3. in4(24i*44), 
out3 in4(2*i*44j*2)); 
end generate incide stage4; 
end generate; 
step4stage4: if (i < 2) generate 
out3 in4(i) <= out2 in3(i); 
out3 in4(i*14) <= out2 in3(i*14); 
end generate; 
Step5stage4: if (i < N/2-1) generate 
Step5stage4: entity work.Comparator 
generic map (M 7» M) 
port map(out3_in4(1+i*2), out3_in4(1+i*2+1), sorted(1+i*2), sorted(1+i*2+1)); 
end generate; 
end generate stage4; 


sorted(0) <= out3 in4(0); 
sorted(15) <= out3 in4(15); 


end Structural; 


使 用 以 下 包 set of data items; 


library IEEE; 
use IEEE.STD LOGIC 1164 all; 


package set of data items is 
constantN :integer:- 8; 
constantM : integer := 4; ~ for different values of M this constant needs to be changed 
type set of 8items is array (N-1 downto 0) of std logic vector (M-1 downto 0); 
type set of 16items is array (2*N-1 downto 0) of std logic vector (M-1 downto 0); 
end set of data items; 


package body set. of data items is 
end set of data items; 


汉 明 权重 比较 器 ，N 215 ( HammingWeightComparator ) 


以 下 VHDL 代码 为 汉 明 权重 比较 器 的 完整 综合 规范 ， 来 自 图 3.31a (对 于 以 下 
任何 模块 ， 最 后 的 比较 电路 都 可 使 用 图 3. 25 所 示 电 路 ) : 


library IEEE: -- the project was tested for the Nexys-4 board and occupies 3 slices 
use IEEE.STD LOGIC 1164.all; - maximum combinational path delay is 2.5 ns 
-- the final comparator LUTé | is configured for: if (3 < weight < 10) then LED if OFF otherwise - ON 


entity HammingWeightComparator is 
port ( Sw ‘in std logic vector (14 downto 0); -- input 15-bit vector 


LedC : out std logic); -- the result of comparison 
end HammingWeightComparator; 


architecture Behavioral of HammingWeightComparator is 
signal Upper bits, Middle bits, Bottom bits — :std logic vector(2 downto 0); 


signal ToLast :Std logic vector(5 downto 0); 
signal comp : std logic; 
begin 


LUT 5 3 upper : entity work.LUT 5to3 
port map(Sw(14 downto 10), Upper bits); 


LUT 5 3 middle ; entity work.LUT 5to3 
port map(Sw(9 downto 5), Middle bits); 
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LUT 5 3 bottom : entity work.LUT 5to3 
port map(Sw(4 downto 0), Bottom bits); 


LUT6 1 comp: entity work.LUT6 1 
port map (ToLast, LedC); 


FA generate: for i in 0 to 2 generate 
FA: entity work.FullAdder ~ see entity FullAdder in section 3.7 


port map(Bottom bits(i), Middle bits(i), Upper bits(i), ToLast(2*i), ToLast(2*i*1)); 
end generate FA generate; 


end Behavioral; 


以 下 代码 为 LUT_5to3 部 分 : 


library IEEE; ; 
use IEEE.STD LOGIC 1164.ll; 
library UNISIM; -- for FPGA LUTs 


use UNISIM.vcomponents.all; 


entity LUT 5to3 is 
port ( fiveBitin :in std logic vector (4 downto 0); 
ThreeBitOut :out std logic vector (2 downto 0)); 
end LUT 5to3; 


architecture Structural of LUT 5t03 is 
begin 
LUTS inst1 : LUT5 

generic map (INIT => X"E8808000") -- LUT Contents 

port map (ThreeBitOut(2), fiveBitln(0), fiveBitIn(1), fiveBitln(2), fiveBitIn(3), fiveBitln(4)); 
LUTS inst2 : LUT5 

generic map (INIT => X"177E7EE8") -- LUT Contents 

port map (ThreeBitOut(1), fiveBitln(0), fiveBitIn(1), fiveBitln(2), fiveBitIn(3), fiveBitln(4)); 
LUT5_inst3 : LUTS 


generic map (INIT => X"96696996") -- LUT Contents 
port map (ThreeBitOut(0), fiveBitln(0), fiveBitin(1), fiveBitln(2), fiveBitIn(3), fiveBitin(4)); 


end Structural; 


以 下 代码 为 图 3. 29a 所 示 最 后 的 比较 器 (LUT6 1): 
library IEEE; 

use IEEE.STD_LOGIC_1164.all; 

library UNISIM; -- for FPGA LUTs 


use UNISIM.vcomponents.all; 


entity LUT6_1 is 
port ( Sixin ;in std logic vector (5 downto 0); 
Comp  :outstd logic); 
end LUT6 1; 


architecture Structural of LUT6_1 is 
begin -- this LUT is used just for comparator and it is configured for two bounds 


LUT6_inst0 : LUT6 ~- if required the LUT contents can be configured 
generic map (INIT => X"fffffffffco0003f") —-- for different bounds (see table B.I for details) 
port map (Comp, Sixin(0), SixIn(1), SixIn(2), SixIn(3), SixIn(4), SixIn(5)); 


end Structural; 

K B. 1 解释 对 于 图 3. 29a 所 示 最 后 的 比较 器 如 何 配置 查找 表 LUTO _ 1, 

SixIn 列表 示 由 3 个 2 位 子 向 量 表示 的 输入 向 量 。 最 高 有 效 子 向 量 权重 为 4， 中 
间 的 子 向 量 权重 为 2， 最 低 有 效 子 向 量 权重 为 1。 因 此 ， 代 码 000101 有 值 0 x4 +2 x 
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2+2xl=3， 这 是 设 定 的 界限 3。 如 下 代码 000110 AHO x44+1%x24+2x1=4, 这 
个 值 超过 界限 3。 其 后 的 所 有 值 ， 直 到 数字 011001 都 在 界限 内 (高 于 3 低 于 10)。 
数字 011010 具有 第 一 个 值 1 x4+2 x2 +2 x1=10 超过 界限 。 表 B. 1 的 十 六 进 制 数 
用 于 配置 LUT。 它 们 必须 从 底部 右边 到 上 面 左边 获 得 给 出 下 常量 : 
FFFFFFFFFC00003F， 用 于 INIT 语句 INIT = > X “fffffffffc00003f”。 

电路 必须 在 Nexys -4 板 测 试 。 输入 向 量 从 15 个 板 集 开关 获得 ， 即 14，13， 
es ，0 (开关 15 没有 使 用 ) 。 比 较 结果 显示 在 LEDO, 


汉 明 权重 计数 器 (N=31) 和 比较 器 (N=32) (HW31_HWC32) 


以 下 VHDL 代码 可 直接 用 于 图 3. 32 所 示 电 路 中 ,计算 任何 输入 向 量 (N =31) 
的 汉 明 权重 ( 即 B= |Bo。,，…，Bso1)， 并 提供 任何 二 进 制 向 量 (N =32) 的 比较 ， 
HA HERH (可 以 选择 图 3. 30 中 的 任何 界限 集 ) 。 


library IEEE; ~ the project was tested for the Nexys-4 board and occupies 14 logical slices 
use IEEE.STD LOGIC. 1164.all; ~ the maximum combinational path delay is 4.4 ns 

use IEEE.STD_LOGIC_ARITH.all; ^ -- constant compare configured for two bounds: 1) 10>weight - 
-- LedC is OFF; 2) 10<weight<20 - LedC is ON; 3) 20<weight<30 - LedC is OFF; 

use IEEE.STD_LOGIC_UNSIGNED.all: -- and 30<weight - LedC is ON; 


entity HW31 HWC32is - the names of used components are the same as in Fig. 3.32 
port (Data in :in std logic vector (31 downto 0); -- 32-bit binary vector (Yector3l in in Fig. 4.6) 
led : out std logic vector (4 downto 0); 
LedC  :out std logic); 
end HW31 HWC32; 


architecture Mixed of HW31 HWC32 is 


signal HW15 1: std logic vector(3 downto 0); -- the Hamming weight for Data in(14 downto 0) 
signal HW15 2: std logic vector(3 downto 0); -- the Hamming weight for Data in(29 downto 15) 
signal LUT5 3 : std logic vector(3 downto 0); -- LUTS 3 in Fig. 3.32 (see block D) 
signal LUT4 3 : std logic vector(3 downto 0); -- LUT4_3 in Fig. 3.32 (see block C) 
signal Out5 3 : std logic vector(2 downto 0); -- LUTS 3 in Fig. 3.32 (see block D) 
signal Out 3 : std logic vector(2 downto 0); — LUT4 3 in Fig. 3.32 (see block €) 
constant compare : std logic vector(127 downto 0) := ~- 128-bit constant for comparator 
X"FEE000077FFCCOOOFCCOO00F FFF88000"; 
~ there are five 64-bit constants below for the Hamming ie bits (4 downto 0) for a 31-bit binary vector 
constant bit0 :std logic vector(63 downto 0) := X"AAAAAAAAAAAAAAAA": 
constant bit! :std logic vector(63 downto 0) := X"CCCCCCCCCCCCCCCC": 
constant bit2 :std logic vector(63 downto 0) := X"OFFOOFFOOFFOOFFO"; 
constant bit3 :std logic vector(63 downto 0) := X"0FFFFOOOOFFFF000"; 
constant bit4 :std logic vector(63 downto 0) := X"OFFFFFFFF0000000"; 


begin 

LUT_based1; entity work.HW15Counter ~ see block B in Fig. 3.32 
port map (Data_in(14 downto 0), HW15 1); 

LUT based2: entity work. HW15Counter -- see block A in Fig. 3.32 


port map (Data_in(29 downto 15), HW15 2); 


LUT4_3 <= HW15_1(3 downto 2) & HW15 2(3 downto 2); -- see LUTA 3 lines in Fig. 3.32 
LUTS_3 <= HW15_1(1 downto 0) & HW15_2(1 downto 0); -- see LUTS_3 lines in Fig. 3.32 


LUT 4 3: entity work.LUT4to3 -- see block C in Fig. 3.32 
port map(LUTA 3, Out4 3); 
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LUT 5 3: entity work. LUTSto3 -- see block D in Fig. 3.32 
port map(LUT5_3, Data_in(30), Out5 3); 


LedC <= compare(conv integer(Data in(31) & Out4 3 & Out5 3)); - the result of comparison (block E) 
-- 5-bit Hamming weight of the vector Data in(30 downto 0) is copied to LED (this part is not shown in Fig. 3.32) 
~ if necessary to get the Hamming weight for a vector Data_in(3! downto 0) an extra bit 31 can be added 
led <= bit4(conv_integer(Out4_3 & Out5 3)) & bit3(conv_integer(Out4_3 & Out5 3)) & 
bit2(conv. integer(Out4 3 & Out5 3)) & bitt(conv. integer(Out4 3 & Out5 3)) & 
bitO(conv_integer(Out4_3 & Out5 3)); -- computation of Hamming weight is not shown in Fig. 3.32 
end Mixed; 


K B. 2 解释 如 何 准备 约束 compare, bit4, bit3, bit2, bitl, bitd. 
X B.2 为 模块 HW31 HWC22 准备 约束 






















































































































































SixIn 汉 明 权重 /比较 器 汉 明 权重 /比较 器 
000000 (0) | 00000 (0) 0 000CA 10000 (1) F FOOCA 
000001 (1) 00001 (0) 10001 (1) 

000010 (2) 00010 (0) 10010 (1) 

000011 (3) 00011 (0) 10011 (1) 

000100 (4) 00100 (0) 0 00FCA 10100 (0) 0 FOFCA 
000101 (5) 00101 (0) 100101 (21) 10101 (0) 

001010 (6) 00110 (0) 101010 (22) 10110 (0) 

001011 (7) 00111 (0) 101011 (23) 10111 (0) 

001100 (8) 01000 (0) 8 OFOCA 101100 (24) 11000 (0) 0 FFOCA 
001101 (9) 01001 (0) 101101 (25) 11001 (0) 

001110 (10) 01010 (00 |. 101110 (26) 11010 (0) 

001111 (11) 01011 (1) 101111 (27) 11011 (0) 

010000 (8) | 01000 (0) 8 OFOCA 110000 (24) 11000 (0) 0 FFOCA 
010001 (9) 01001 (0) 110001 (25) 11001 (0) 

010010 (10) 01010 (0) 110010 (26) 11010 (0) 

010011 (11) 01011 (1) 110011 (27) 11011 (0) 

010100 (12) 01100 (1) F OFFCA 110100 (28) 11100 (0) C FFFCA 
010101 (13) 01101 (1) | 110101 (29) 11101 (0) 

010110 (14) 01110 (1) 110110. (30) 11110 (1) 

010111 (15) 01111 (1) 110111 (31) 11111 (1) 

011000 (12) 01100 (1) F OFFCA 111000 (28) 11100 (0) C FFFCA 
011001 (13) 01101 (1) 111001 (29) 11101 (0) 

011010 (14) 01110 (1) 111010 (30) 11110 (1) 

011011 (15) Ol (1) 111011 (31) 11111 (1) 

011100 (16) 10000 (1) 111100 (32) 100000 (1) F 000CA 
011101 (17) 10001 (1) 111101. (33) 100001 (1) 

011110 (18) 10010 (1) 100010 (1) | 

011111 (19) 











10011 (1) 


比较 结果 在 表 B.2 的 左边 改变 两 次 。 第 一 次 改变 为 001110 (10) 和 001111 
(11) 。 括 号 内 的 值 (在 Sixin 列 ) 是 对 应 的 十 进 制 值 。 对 于 向 量 001110， 十 进 制 值 形 
IH lio x4io +610 =10io (也 可 见 图 3.32) 。 对 于 列 汉 明 权 重 / 比 较 器 括号 内 的 值 是 比 
较 结果 。 对 于 (10o) SFO, 对 于 (Olo) 等 于 1。 对 于 第 二 个 向 量 010010 (10), 
值 (1045) 形式 为 210 X449 +219 = 1010 (也 可 见 图 3. 32)。 其 他 解释 如 图 B. 3 所 示 。 
上 面 的 1 位 数字 十 六 进 制 数 用 于 配置 比较 器 ， 下 面 的 5 位 数字 十 六 进 制 数 用 于 配置 计 
数 器 。 图 B. 3 解释 如 何 准备 约束 。 这 个 图 关于 表 B. 2 底部 右边 。 十 六 进 制 数 形成 的 
比较 结果 如 图 B.3 所 示 。 因 此 ，16 位 数字 常量 FCC0000FFFF88000 被 定义 。 常 量 
(FEE000077FFCC000) 的 最 高 有 效 16 位 数字 使 用 相同 的 技术 形成 ,但 是 也 考虑 了 最 
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高 有 效 位 Data in (31) (这 部 分 不 在 表 B. 2 和 图 B. 3 中 )。 汉 明 权重 的 十 六 进 制 党 
量 建立 与 之 类 似 ， 但 是 使 用 了 5 列 5 位 数字 的 十 六 进 制 数 〈 最 右边 的 列 对 于 bito, d 
左边 的 列 对 于 bit4; 剩余 的 常量 从 中 间 的 数字 建立 ) 。 

11100,+001,=11101,=29,, TARAS ie 














constant — compare.… Vy” 

:= X"[FEE000077FFCCOO00| FCCOOOOFFFF88000"; 
这 部 分 由 i 

Data in(31) ='1' 构成 


B 
















constant bitO ..... := X"AAAAAAAAAAAAAAAA\™:| |S A 
constant bit1 ..... := X'CCCCCCCCCCCCCCCC | 7 名 
constant bit2 ..... := X"OFFOOFFOOFFOOFFO"; mR 
constant bit3 ..... := X"OFFFFOOOOFFFFOOO"; 5 <i 
constant bit4 ..... := X"OFFFFFFFFOO00000"; TE 
Ai 
_ x 
7,944537 1073510 jc UE GEH 
图 B.3 准备 常数 值 。 " 


因此 ， 使 用 了 如 下 十 六 进 制 数 : 000CA (K B. 2 的 底部 右边 ) FFFCA, FFF- 
CA, FFOCA, FFOCA, FOFCA, FOFCA, FOOCA, FOOCA, OFFCA, OFFCA, 
OFOCA, OFOCA, OOFCA, OOFCA, OOOCA (¥ B.2 的 顶部 左边 ) 。 这 样 的 常量 只 为 
5 个 最 低 有 效 数 字 定 义 ， 在 列 汉 明 权重 /比较 器 (因为 汉 明 权重 只 为 计算 31 位 向 
量 ，5 个 字 足 够 ) 。 现 在 ， 常 量 已 经 为 每 个 十 六 进 制 数字 准备 好 。 对 于 最 高 有 效 数 
F, 常量 bit4 是 OFFFFFFFF0000000 (每 个 十 六 进 制 数 中 最 高 有 效 数 字 组 成 )。 下 
一 常量 对 于 bit3 Ji OFFFFOOOOFFFFO00 等 。 

器 件 HW15Counter 与 上 文 讲述 的 器 件 HammingWeightComparator 非常 相似 。 唯 
一 的 不 同 是 计算 15 位 输入 向 量 的 汉 明 权重 而 不 是 比较 结果 。 以 下 VHDL 代码 用 于 


器 件 HW15Counter 计算 汉 明 权重 : 
library IEEE; 
use IEEE.STD_LOGIC_1164.all; 


entity HW15Counter is 
port(Data in :in std logic vector (14 downto 0); -- input binary vector 
HW15  :outstd logic vector(3 downto 0)); -- Hamming weight of the input vector 
end HW15Counter; 


architecture Structural of HW15Counter is — it is very similar to the entity HammingWeightComparator 
signal Upper, Middle, Bottom :std logic vector(2 downto 0); 
signal ToLast : std_logic_vector(5 downto 0); 
begin 
LUT 5 3 upper : entity work.LUT_Sto3 
port map(Data in(14 downto 10), Upper); 


LUT 5 3 middle : entity work.LUT. 5to3 
port map(Data in(9 downto 5), Middle); 


LUT 5 3 bottom: entity work.LUT 5to3 
port map(Data in(4 downto 0), Bottom); 


LUT6 4 comp HW: entity work.LUT6 4 
port map (ToLast, HW15); 
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FA generate: for i in 0 to 2 generate 
FA: entity work.FullAdder -- see entity FullAdder in section 3.7 


port map(Bottom(i), Middle(i), Upper(i), ToLast(2*i), ToLast(2*i+1)); 
end generate FA generate; 


end Structural; 
器 件 LUT_Sto3 与 上 述 实体 HammingWeightComparator 相同 。 器 件 LUT6 4 的 代 


码 如 下 : 
library IEEE; 
use IEEE.STD LOGIC 1164.all; 


library UNISIM; ~ for FPGA LUTs 
use UNISIM.vcomponents.all; 


entity LUT6 4 is 


port (Data in :in std logic vector (5 downto 0); -- input binary vector 
Data out: out std logic vector (3 downto 0)); -- Hamming weight for the input vector 
end LUT6 4; 
architecture Structural of LUT6 4 is 
begin 


LUT6 inst2: LUT6 
generic map (INIT => X"003f3fffffc0c000") -- LUT Contents 


port map (Data_out(3), Data in(0), Data in(1), Data in(2), Data_in(3), Data_in(4), Data in(5)); 


LUT6 inst3 : LUT6 


generic map (INIT => X"cO3f3fcOcO3f3fcO") -- LUT Contents 
port map (Data_out(2), Data in(0), Data in(1), Data_in(2), Data_in(3), Data_in(4), Data in(5)); 


LUT6_inst4 : LUT6 

generic map (INIT => X"3c3c3c3c3c3c3c3c") -- LUT Contents 

port map (Data_out(1), Data in(0), Data_in(1), Data_in(2), Data in(3), Data in(4), Data in(5)); 
LUT6 inst5 : LUT6 


generic map (INIT => X'aaaaaaaaaaaaaaaa") -- LUT Contents 
port map (Data out(0), Data in(0), Data in(1), Data in(2), Data in(3), Data in(4), Data in(5)); 


end Structural; 


器 件 LUT4to3 的 代码 如 下 : 


library IEEE; 

use IEEE.STD_LOGIC_1164.all; 

library UNISIM; -- for FPGA LUTs 
use UNISIM.vcomponents.all; 


entity LUT4to3 is 
port (Data in :in std logic vector (3 downto 0); 
Data out: out std logic vector (2 downto 0)); 
end LUT4to3; 


architecture Structural of LUT4to3 is 
begin 


LUTA inst : LUT4 
generic map (INIT => X"EE80") 
port map (Data_out(2), Data_in(0), Data_in(1), Data_in(2), Data_in(3)); 


LUT4_inst2 : LUT4 
generic map (INIT => X"936C") 
port map (Data out(1), Data in(0), Data_in(1), Data_in(2), Data in(3)); 


LUT4 inst3 : LUT4 
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generic map (INIT => X"5A5A") 
port map (Data out(0), Data in(0), Data in(1), Data_in(2), Data in(3)); 


end Structural; 
器 件 LUTSto3 (注意 这 个 器 件 不 同 于 上 文 实体 HammingWeightComparator 的 器 


fF LUT _Sto3) 的 代码 如 下 : 
library IEEE; 
use IEEE.STD LOGIC 1164.all; 
library UNISIM; -- for FPGA LUTs 
use UNISIM.vcomponents.all; 


entity LUTSto3 is 
port (Data in :in std logic vector (3 downto 0); 
Extra bit: in std logic; 
Data out : out std logic vector (2 downto 0)); 
end LUTSto3; 


architecture Structural of LUTSto3 is 
begin 


LUTS inst1 : LUT5 
generic map (INIT => X"FEC8EE80") 
port map (Data out(2), Data in(0), Data in(1), Data in(2), Data_in(3), Extra. bit); 


LUT5_inst2 : LUT5 
generic map (INIT => X"C936936C") 
port map (Data out(1), Data in(0), Data in(1), Data in(2), Data in(3), Extra bit); 


LUTS inst3 : LUT5 
generic map (INIT => X'ASA55A5A") 
port map (Data out(0), Data in(0), Data in(1), Data in(2), Data in(3), Extra bit); 


end Structural; 

工程 可 用 于 测试 ， 电 路 〈 最 大 组 合 通路 延 时 等 于 4.4ns) 占用 14 Hm Artix -7 
FPCA。 可 用 于 汉 明 权重 计数 器 和 比较 器。 如 果 只 需要 其 中 的 一 个 函数 〈( 即 计数 或 
比较 ) ， 则 可 以 移 除 不 需要 的 部 分 。 上 文 的 工程 也 作为 附录 B 的 最 后 一 个 器 件 
实例 。 


汉 明 权重 计数 器 ，N =36 (HammingWeightCounter36bits ) 


以 下 VHDL 代码 是 完整 的 图 3. 27 和 图 3. 28 的 汉 明 权重 计数 器 的 可 综合 规范 
(图 3.25 的 任何 最 终 比较 电路 可 用 于 汉 明 权重 比较 器 ) : 


library IEEE; -- the project was tested for the Nexys-4 board and occupies 15 slices 
use IEEE.STD_LOGIC_1164.all; -- the maximum combinational path delay is 3.5 ns 





entity HammingWeightCounter36bits is 
generic (N X :integer := 36 ); 
port (Data_in :in std logic vector (N-1 downto 0); -- inputs ag,ai,...,a35 in Fig, 3.27 
Data out: out std logic vector (5 downto 0); —  -- the Hamming weight in Fig. 3.28 
end HammingWeightCounter36bits; 


architecture Behavioral of HammingWeightCounter36bits is 


type array of inputs is array (N/12-1 downto 0) of std logic vector(5 downto 0); 
signal Out18 bits : std logic vector(N/2-1 downto 0); -- outputs of the layer | in Fig. 3.27 
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signal In6 bits : array of inputs; -- inputs of the layer 2 in Fig. 3.27 
signal Res9 bits : std logic vector(N/4-1 downto 0); -- outputs of the layer 2 in Fig. 3.27 
begin 


generate LUTs at level 0: for i in N/6-1 downto 0 generate 
one slice: entity work.LUT 6to3 

-- VHDL code of this component (LUT 6t03) is given in section 3.9 

port map(Data_in(6*i+5 downto 6*i), Out18_bits(3*i+2 downto 3*i)); 
end generate generate_LUTs_at_level_0; 


generate_LUTs_at_level_1: for i in N/12-1 downto 0 generate 
In6_bits(i) <= Out18 bits(i) & Out18_bits(i+3) & Out18_bits(i+6) & 
Out18 bits(i*9) & Out18 bits(i*12) & Out18 bits(i*15); 


one slice: entity work.LUT 6to3 
-- VHDL code of this component (LUT_6to3) is given in section 3.9 
port map(In6 bits(i), Res9 bits(3*i*2 downto 3*i)); 

end generate generate LUTs at level 1; 


FinalCircuit: entity work.Final LUT based adders 
port map (Res9 bits(7 downto 0), Res9 bits(8), Data out ); 


end Behavioral; 
器 件 Final _ LUT based _ adders 描述 图 3. 28a 的 电路 功能 ， 其 代码 如 下 (可 为 
图 3. 28b 构建 相似 但 更 简单 的 电路 ) : 


library IEEE; 
use IEEE.STD LOGIC 1164 all; 
use IEEE.STD LOGIC. UNSIGNED all; 


entity Final LUT. based. adders is -- the mapping is described below by constants 
port( A 3bits B 3bits C 2bits: in std logic vector(7 downto 0); 

C last bit :instd logic; —-- C last bit is the symbol X; in Fig. 328a 

Data out :outstd logic vector(5 downto 0)); —-- Hamming weight (N=36) 
end Final LUT based adders; 


architecture Behavioral of Final LUT based adders is 
type for LUT is array (0 to 31) of std logic vector(3 downto 0); -- the first constant corresponds to 
~ INIT statements for p j,po; Yi in Fig. 3.28a and the second constant — to the INIT statement for Y s,Ya¥s 
constant LUTs1 : for LUT := 
(KOT, X 1", X 2^, 0 8*, X15 X'2^ X95 XV Xx 25 X 9 A ROBT KOS KS X055 KO, 
X2", X'9' XM X 5^, X'S", X^, X B, X'6*, X 4^, XS", XG", X 7^; XH", x"6*, x 7^, XB 
-- only 3 least significant bits in 4-bit vectors are used below for the INIT statement for '/ s;y«;ys (see Fig. 3.282) 
constant LUTs2 : for LUT := 
(XO XM x^1^, x2", x" 2", x" 3", XS", KAN, XA x'25, x"2*. MST KNB x 4", MAS xb? 
X2 X XO, X424, X 5 X5. X6. X 9 X4, x d^, x 5" X'S", KG", KO", KZ") 
-- A_3bits/B_3bits/C_2 bits are associated with the symbols 0102083/BiB2Bs/%120 in Fig. 3.28 a 
signal A1A2A3, B1B2B3, C1C2C3  :std logic vector(2 downto 0); 
signal CmCIO201 :Std logic vector(3 downto 0); 
signal O5 3 :std logic vector(2 downto 0); 
begin -- the lines below describe the circuit in Fig. 3.28a 


-- (LUTSI is the bottom block in Fig. 3.28a and LUTs2 is the upper block in Fig. 3.283) 
A1A2A3 <= C last bit & A 3bits B 3bits C 2bits(7 downto 6); -- signals Oo for the upper block 
B1B2B3 <= A 3bits B 3bits C 2bits(5 downto 3); -- signals Bi (upper block) and gos (bottom block) 
C1C2C3 <= A 3bits B 3bits C 2bits(2 downto 0); -- signal X3 (direct output) and XIX2 (bottom block) 
05 3 «-LUTs2(conv integer(CmCIO201(3 downto 2) & 

A1A2A3(2 downto 1) & B1B2B3(2)))(2 downto 0); 
CmCIO201 <= LUTs1(conv_integer(A1A2A3(0) & B1B2B3(1 downto 0) & 

















"cQ 
C1C2C3(2 downto 1))); 


Data out <= O5 3 & CmCIO201(1 downto 0)& C1C2C3(0); -- concatenation of (Yo) (YiY») and (yyy«ys) 

end Behavioral; 

工程 可 用 于 测试 ， 电 路 (最 大 组 合 通路 延 时 等 于 3.5ns) 占用 15 片 Artix -7 
FPGA。 只 计算 36 位 向 量 的 汉 明 权重 。 简 单 的 加 法 使 相同 的 工程 可 用 作 汉 明 权 重 比 

注意 ， 这 里 涉及 了 许多 不 同 的 工程 ， 它 们 可 独立 葵 入 FPGA 器 件 。 而 且 ， 如 果 
fA DSP slice 可 用 ， 则 基于 DSP BJ TREE. AU Ae aE HI, We E 
述 的 工程 可 能 会 有 用 。 
随机 数 生成 器 ( RanGen) 

模块 生成 随机 数 ， 属 性 大 小 为 width， 代 码 如 下 (默认 width 232) : 


library IEEE; 
use IEEE.STD_LOGIC_1164.all; 








entity RanGen is 


generic (width :integer := 32 ); — = generic size of random numbers 
port ( clk :in std logic; -- system clock 
random num : out std logic vector (width-1 downto 0) ); -- generated number 
end RanGen; 
architecture Behavioral of RanGen is 
begin 
process(clk) 


variable rand temp : std_logic_vector(width-1 downto 0):=(width-1 => '1', others => '0'); 
variable temp  : std logic := '0'; 


begin 
if(rising edge(clk)) then 
temp ‘= rand_temp(width-1) xor rand temp(width-2); 
rand temp(width-1 downto 1) := rand, temp(width-2 downto 0); 
rand_temp(0) := temp; 
end if; 


random_num <= rand_temp; 
end process; 
end Behavioral; 
在 每 个 时 钟 周 期 ， 生 成 新 的 32 位 伪 随 机 数 。 大 小 width 232 是 属性 ， 可 轻松 改 


段 解码 器 (segment decoder) 


解码 器 转换 4 位 二 进 制 代 码 ， 以 每 个 数 在 7 段 显示 管 上 可 见 的 方式 ， 比 如 在 
Nexys -4 板 上 。VHDL 代码 如 下 : 
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library IEEE; 

use IEEE.STD LOGIC 1164.all; 

entity segment decoder is -- any one hexadecimal or BCD code can be used as an input 

port ( BCD : in std logic vector (3 downto 0); -- decoder input 
segments :out std logic vector (7 downto 1)); -- decoder output 

end segment_decoder; 


architecture Behavioral of segment_decoder is 
begin -- segment is active when the signal is 'Ü' and passive when the signal is 'I' 
segments <= "1000000" when BCD = "0000" else 0 
"1111001" when BCD = "0001" else -| 
"0100100" when BCD = "0010" else -2 
"0110000" when BCD = "0011" else -3 
"0011001" when BCD = "0100" else -- 4 
"0010010" when BCD = "0101" else 5 
"0000010" when BCD = "0110" else -6 
"4111000" when BCD = "0111" else -1 


"0000000" when BCD = "1000" else -$ 
"0010000" when BCD = "1001" else -9 
"0001000" when BCD = "1010" else -a 
"0000011" when BCD = "1011" else -b 
"1000110" when BCD = "1100" else -( 
"0100001" when BCD = "1101" else ~- d 
"0000110" when BCD = "1110" else -e 
"0001110" when BCD = "1111" else -Í 
1111111"; ~ all segments are passive 


end Behavioral; 


段 显示 控制 (EightDisplayControl) 
在 Nexys -4 板 上 ， 器 件 控 制 8 个 7 段 显 示 管 。 模 块 的 功能 在 图 B.4 中 解释 ， 


其 VHDL 代码 如 下 : 
library IEEE;  -- this code is for 8 7-segment displays available on the Nexys-4 board 
use IEEE.STD LOGIC 1164.all; ~ small changes permit the same code to be used for many 


use IEEE.STD LOGIC UNSIGNED.all; -- prototyping boards, for example, Nexys-2/Nexys-3 
entity EightDisplayControl is -- FourDisplayControl for Nexys-2/Nexys-3 can be also based on the code below 


port ( clk :in std logic; 
leftL, near. leftL :in std logic vector (3 downto 0); 
near rightL, rightL — : in std logic. vector (3 downto 0); 
leftR, near. leftR : in std. logic. vector (3 downto 0); 
near rightR, rightR :in std. logic vector (3 downto 0); 
select display : out std logic vector (7 downto 0); 
segments :out std_logic_vector (6 downto 0)); 
end EightDisplayControl; 


architecture Behavioral of EightDisplayControl is 
signal Display : std_logic_vector(2 downto 0); 


signal div : Std_logic_vector(16 downto 0); 
signal convert_me :std logic vector(3 downto 0); 
begin 


div<= div + 1 when rising edge(clk); 
Display <= div(16 downto 14); 


process(Display, leftL, near leftL, near rightL, rightL, leftR, near leftR, near rightR, rightR) 
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begin -- sequential activation of the displays with proper control of the segments of the selected display 
if — Display ="111" then select display <= "11111110"; convert me <= leftL; 
elsif Display ="110" then select display <= "11111101"; convert me <= near. leftL; 
elsif Display ="101" then select display <= "11111011"; convert me <= near. rightL; 
elsif Display ="100" then select display <= "11110111"; convert me <= rightL; 
elsif Display ="011" then select display <= "11101111"; convert me <= leftR; 
elsif Display ="010" then select display <= 11011111"; convert me <= near leftR; 
elsif Display ="001" then select display <= "10111111"; convert me <= near rightR; 
else select display <= "01111111"; convert me <= rightR; 
end if; -- the display is active when the corresponding bit in 8-bit vector above is zero 
end process; 





decoder : entity work.segment decoder -- segment decoder (see above) 
port map (convert me, segments); 


end Behavioral; 
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select display : out std logic vector (7 downto 0); 
segments :out std logic vector (6 downto 0)); 
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Display ="111" then select display <= "11111110"; convert me <= leftL; 
elsif Display ="110" then select display <= "11111101"; convert me <= near_leftL; 
elsif Display ="101" then select display <= "11111011"; convert me <= near rightL; segment | 
elsif Display ="100" then select display <= "11110111"; convert me <= rightL; decoder 
elsif Display "011" then select display «- "11101111"; convert me «- leftR; (QU EX 
elsif Display ="010" then select display <= "11011111"; convert me <= near. leftR; 代码 ) 
Display ="001" then select display <= "10111111"; convert me <= near_rightR; 
select display <= "01111111"; convert me <= rightR; 






4 位 代码 


图 B.4 模块 EightDisplayControl 的 功能 


4 位 代码 (BCD 或 二 进 制 ) leftL, near _ leftL, near  rightL, rightL, leftR, 
near leftR, near rightR, rightR 关联 图 B. 4 的 显示 。 这 些 代 码 送 到 段 解 码 器 的 输 
入 端 。 因 为 每 次 只 激活 一 个 显示 ， 所 以 扫描 所 有 显示 使 不 同 数 得 以 显示 。 显 示 顺 序 
激活 div< = div +1 when rising _ edge did 和 Display < = div (16 downto 14) 。 
如 果 转 换 从 二 进 制 到 BCD 码 也 使 用 ， 则 二 进 制 数 〈 见 图 B. 1b) 将 以 十 进 制 形式 
显示 。 
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library IEEE; -- the project was tested for the Nexys-4 board and occupies 34 slices 
use IEEE.STD_LOGIC_1164.all; ~- the project shows on segment displays the Hamming weight of 
use IEEE.STD LOGIC UNSIGNED.all; -- 32-bit input binary vector and the result of comparison 





entity HW32 HWC32 is -- in the experiments 32-bit input binary vector is received from onboard 
port ( clk :in sid logic; - switches of two Nexys-4 boards connected through PMod 
seg :outstd logic vector(6 downto 0); -- segments of onboard displays 
sel disp :outstd logic vector(7 downto 0); -- control of onboard displays 
Data in :in std logic vector (31 downto 0); -- 32-bit input binary vector 
LedC : out std logic); -- the result of comparison (see the entity HW31_HW(32 above) 
end HW32 HWC32; 


architecture Mixed of HW32 HWC32 is 
signal HW15 1,HW15 2 :std logic vector(3 downto 0); 


signal binary :std logic vector(7 downto 0); 

signal BCD2,BCD1,BCDO : std logic vector(3 downto 0); 

signal bits4 0 :std logic vector(4 downto 0); 
begin 


-- This line is used to compute the Hamming weight for 32-bit binary vector 
binary <= "00" & (("00000"&Data_in(31)) + ('O'&bits4 0)); 


DispCont : entity work.EightDisplayControl 
port map(clk, "0000", "0000", "0000", "0000", "0000", BCD2, BCD1, BCDO, 
sel disp, seg); 


BinToBCD : entity work.BinToBCD8 
port map (clk, '0', open, binary, BCD2, BCD1, BCD0); 


HW HWC 32: entity work.HW HWC32 
port map (Data in, bits4 0, LedC); 


end Mixed; 

在 1.5 节 提 到 ， 本 书 的 所 有 工程 可 在 http: //sweet. ua. pt/skl/Springer2014. html 
获得 。 它 们 在 Xilinx ISE 14.7 中 执行 和 测试 ， 多 数 也 转换 并 在 Xilinx Vivado 2013. 4 设 
计 工具 中 测试 过 。 以 下 工程 检查 4.2 节 的 Test HWI6 实体 ， 是 基于 DSP 的 汉 明 权重 
(HW) 计数 器 。 结 果 HW 显示 在 Nexys -4 的 左边 ， 以 十 六 进 制 显示 。 如 果 HW =16， 


则 左边 的 LED 亮 ， 显 示 0. 
library IEEE; 
use IEEE.STD LOGIC 1164.all; 
entity HW16 DISPLAY is -- Nexys-4 circuit occupies 4 logical slices and | DSP slice 


port (ledL : out std logic; ~ ledL is the leftmost LED 
seg. ` : out std logic vector(6 downto 0); -- from segment decoder 
sel disp — : outstd logic vector(7 downto 0);  pinsN6,M6,M3,N5,2,N4,LI,MI 
Sw : instd logic vector(15 downto 0));-- input vector to count the HW 


end HW16 DISPLAY; 


architecture Mixed of HW16 . DISPLAY is 

signal HW16 :Std logic vector(4 downto 0); -- represents the HW 

begin 

-- DSP-based computing of the Hamming weight (HW16) for 16-bit binary vector Sw from Sect. 4.2 

HWCC : entity work.Test_HW16 — -- combining positional and named associations 
port map (Sw,led=>HW16,led_comp=> open); 

- segment display decoder for hexadecimal input numbers 

seg_dec : entity work.segment_decoder-- only named association is used 
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g » = 


port map(BCD=>HW16(3 downto 0),segments=>seg); 





ledL <= HW16(4); - if HWI6 = 16 then LedL is ON otherwise - OFF 
sel_disp <= "11111110"; -- only the leftmost display is chosen 
end Mixed; 


在 ISE 中 测试 该 工程 ， 然 后 做 一 下 转换 使 之 能 在 Vivado 综合 、 执 行 和 测试 。 
首先 ，Nexys -4 UCF 文件 必须 转换 为 XDC 文件 : 

1) 运行 Xilinx PlanAhead 软件 ， 打 开 在 ISE 创建 的 工程 ; 

2) 在 PlanAhead 运行 综合 ， 打 开 综合 设计 ; 

3) 在 PlanAhead 的 Tcl 控制 台 运 行 如 下 要 求 : write xde c: /tmp/Nexys4. xde 
(注意 ， 子 目录 tmp 可 手动 创建 ) ; 

还 必须 完成 下 面 的 步骤 : 

4) Jj Nexys -4 的 FPGA 创建 新 的 RTL Vivado 工程 ; 

5) 复制 ISE 工程 中 的 所 有 VHDL 文件 (上述 工程 需要 复制 4 个 文件 ) 和 新 创 
建 的 XDC 文件 到 新 的 Vivado 工程 中 ; 

6) 在 Vivado 中 人 允许 综合 、 执 行 和 生成 比特 流 ; 

7) 在 Vivado 中 打开 硬件 管理 ， 烧 录 到 Nexys -4 的 FPGA; 

8) 在 Nexys -4 板 中 测试 工程 。 

为 了 简化 在 ISE 和 Vivado 中 测试 工程 ,所 有 必须 的 器 件 可 在 http: // 
sweet. ua. pt/skl/Springer2014. html (在 JISE 或 Vivado 子 目 录 中 ) 找到 。 它 们 含有 所 
有 必须 包含 在 ISE/Vivado 工程 中 的 文件 ， 因 此 只 有 步骤 4) ~8) 需要 完成 。 注 意 ， 
如 果 转 换 工程 有 XCO 文件 ， 则 必须 升级 〈 见 1.5 节 )。 如 果 转 换 工 程 有 COE/TXT 
文件 ， 则 它们 必须 复制 到 Vivado 工程 中 或 必须 明确 说 明 它们 的 位 置 ， 例 如 : 

signal array name : my array := read_array("c:/tmp/data.txt"); 

不 同 可 用 模块 的 其 他 VHDL 实例 见 本 章 参 考 文献 [2，3 ] 。 本 章 参 考 文献 [4] 
描述 从 ISE 工程 转换 到 Vivado 工程 的 细节 。 
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